Lumiere, and s5unnyjjj

DL - Theory #3 : Flow of Actiation function 본문

Artificial Intelligence/Deep Learning

DL - Theory #3 : Flow of Actiation function

s5unnyjjj 2022. 4. 1. 18:27
반응형

딥러닝 모델 구축에 사용되는 많은 activation function이 존재합니다.

해당 글에서는 activation function의 변천사에 대해서 간략히 설명하려고 합니다.

 

 

 Sigmoid / Tanh(Hyperbolic Tangent) 

  • 초기에는 sigmoid, tanh가 빈번하게 사용되었습니다.
  • Sigmoid와 Tanh는 s 모양의 곡선으로 이루어져있습니다.
  • Sigmoid의 경우 y 값의 범위는 0~1인 반면, Tanh의 경우 y 값의 범위는 -1~1입니다.
  • 하지만 모델 업데이트 과정에서의 지속적인 미분으로 인하여 vanishing gradient가 발생합니다.
  • 이를 해결하기 위해 ReLU가 급부상하게 됩니다. 

 

 ReLU(Rectified Linear Unit) 

  • ReLU는 x가 0이상의 양수일 경우 y=x 이지만, 음수일 경우는 0으로 처리됩니다.
  • 입력이 음수인 노드에 연결된 파라미터 업데이트가 불가능하게 됩니다.
  • 이를 해결하기 위해 Leaky ReLU가 나타납니다.

 

 Leaky ReLU(Rectified Linear Unit) 

  • Leaky ReLU는 x가 양수일 경우 ReLU와 동일하게 y=x를 따릅니다.
  • 하지만 음수일 경우 ReLU의 한계점을 해결하기 위해 Leaky ReLU는 특정 기울기 만큼의 식을 따르게 되며 식으로 표현하면 y=ax(a<0)입니다. 기울기(a)는 조절할 수 있습니다.
  • 하지만 y=ax는 직선형이다보니 음수부분이 bounded 되어있지 않기에 feature 학습에 부정적인 영향을 끼치게 됩니다.
  • 이를 해결하기 위해 GeLU가 나타납니다.

 

 GeLU(Gaussian Error Linear Unit) 

  • GeLU는 음수부분이 값을 갖지만 너무 커지지 않도록 bounded하도록 합니다.
  • GeLU 그래프 그림은 아래와 같습니다.

(Ref: https://arxiv.org/abs/1606.08415)


>> 위 내용은 필자가 직접 작성한 내용입니다.

>> 부족한 점이 많을 수 있기에 잘못된 내용이나 궁금한 사항이 있으면 댓글 달아주시기 바랍니다.

>> 긴 글 읽어주셔서 감사합니다. 

반응형
Comments