s5unnyjjj's LOG
DL - Theory #3 : Flow of Actiation function 본문
Artificial Intelligence/Deep Learning
DL - Theory #3 : Flow of Actiation function
s5unnyjjj 2022. 4. 1. 18:27딥러닝 모델 구축에 사용되는 많은 activation function이 존재합니다.
해당 글에서는 activation function의 변천사에 대해서 간략히 설명하려고 합니다.
Sigmoid / Tanh(Hyperbolic Tangent)
- 초기에는 sigmoid, tanh가 빈번하게 사용되었습니다.
- Sigmoid와 Tanh는 s 모양의 곡선으로 이루어져있습니다.
- Sigmoid의 경우 y 값의 범위는 0~1인 반면, Tanh의 경우 y 값의 범위는 -1~1입니다.
- 하지만 모델 업데이트 과정에서의 지속적인 미분으로 인하여 vanishing gradient가 발생합니다.
- 이를 해결하기 위해 ReLU가 급부상하게 됩니다.
ReLU(Rectified Linear Unit)
- ReLU는 x가 0이상의 양수일 경우 y=x 이지만, 음수일 경우는 0으로 처리됩니다.
- 입력이 음수인 노드에 연결된 파라미터 업데이트가 불가능하게 됩니다.
- 이를 해결하기 위해 Leaky ReLU가 나타납니다.
Leaky ReLU(Rectified Linear Unit)
- Leaky ReLU는 x가 양수일 경우 ReLU와 동일하게 y=x를 따릅니다.
- 하지만 음수일 경우 ReLU의 한계점을 해결하기 위해 Leaky ReLU는 특정 기울기 만큼의 식을 따르게 되며 식으로 표현하면 y=ax(a<0)입니다. 기울기(a)는 조절할 수 있습니다.
- 하지만 y=ax는 직선형이다보니 음수부분이 bounded 되어있지 않기에 feature 학습에 부정적인 영향을 끼치게 됩니다.
- 이를 해결하기 위해 GeLU가 나타납니다.
GeLU(Gaussian Error Linear Unit)
- GeLU는 음수부분이 값을 갖지만 너무 커지지 않도록 bounded하도록 합니다.
- GeLU 그래프 그림은 아래와 같습니다.
(Ref: https://arxiv.org/abs/1606.08415)
>> 위 내용은 필자가 직접 작성한 내용입니다.
>> 부족한 점이 많을 수 있기에 잘못된 내용이나 궁금한 사항이 있으면 댓글 달아주시기 바랍니다.
>> 긴 글 읽어주셔서 감사합니다.
반응형
'Artificial Intelligence > Deep Learning' 카테고리의 다른 글
DL - Problem #7 : Dropout를 적용한 모델의 특정 node output 계산 (0) | 2021.06.05 |
---|---|
DL-Theory #1 : GD(Gradient Descent)의 변형 알고리즘 (0) | 2021.05.16 |
DL - Problem #6 : Batch normalization를 이용한 특정 node의 output 계산 (0) | 2021.05.14 |
DL - Problem #5 : GD(Gradient Descent)를 이용한 가중치 업데이트 (3) (0) | 2021.05.11 |
DL - Problem #4 : GD(Gradient Descent)를 이용한 가중치 업데이트 (2) (0) | 2021.05.11 |
Comments