목록Artificial Intelligence/Deep Learning
반응형
(13)
s5unnyjjj's LOG
딥러닝 모델 구축에 사용되는 많은 activation function이 존재합니다. 해당 글에서는 activation function의 변천사에 대해서 간략히 설명하려고 합니다. Sigmoid / Tanh(Hyperbolic Tangent) 초기에는 sigmoid, tanh가 빈번하게 사용되었습니다. Sigmoid와 Tanh는 s 모양의 곡선으로 이루어져있습니다. Sigmoid의 경우 y 값의 범위는 0~1인 반면, Tanh의 경우 y 값의 범위는 -1~1입니다. 하지만 모델 업데이트 과정에서의 지속적인 미분으로 인하여 vanishing gradient가 발생합니다. 이를 해결하기 위해 ReLU가 급부상하게 됩니다. ReLU(Rectified Linear Unit) ReLU는 x가 0이상의 양수일 경우 ..
Problem #7 : Dropout를 적용한 모델의 특정 node output 계산 하단의 표를 이용하여 아래의 그림에 표시된 h2의 output인 o2 값을 계산하시오. 단, 활성화 함수(Activation function)은 ReLU를 사용하며 각 노드의 drop 될 가능성은 0.4이다. 풀이를 원하실 경우, 하단의 '더보기' 를 클릭해주시기 바랍니다. 더보기 아래의 내용은 필자가 직접 작성한 풀이입니다. >> 위 내용은 필자가 직접 작성한 내용입니다. >> 부족한 점이 많을 수 있기에 잘못된 내용이나 궁금한 사항이 있으면 댓글 달아주시기 바랍니다. >> 긴 글 읽어주셔서 감사합니다.
GD(Gradient Descent) 변형 알고리즘 GD(Grdient Descent) SGD(Stochastic Gradient Descent) loss function을 계산할 때, 전체 데이터 대신 일부 조그만한 데이터(mini-batch)의 모음에 대해서만 loss 계산 Momentum NAG Adagrad RMSProp Adagrad 식에서 gradient 제곱값을 더해나가면서 구한 Adam Momentum 방식과 유사하게 지금까지 계산해온 기울기의 지수평균을 저장 RMSProp과 유사하게 기울기의 제곱값의 지수 평균 저장
Problem #6 : Batch normalization를 이용한 특정 node의 output 계산 하단의 표를 이용하여 아래의 그림에 표시된 h1의 output인 o2 값을 계산하시오. 단, 활성화 함수(Activation function)은 ReLU를 사용하며 Batch normalization을 사용한다. 또한 r는 2이며, beta는 -1을 사용한다. 풀이를 원하실 경우, 하단의 '더보기' 를 클릭해주시기 바랍니다. 더보기 아래의 내용은 필자가 직접 작성한 풀이입니다. >> 위 내용은 필자가 공부하여 직접 정리한 내용이며, 위 그림 역시 직접 그린 그림이므로 워터마크 "s5unnyjjj"를 삽입하였음을 알려드립니다. >> 부족한 점이 많을 수 있기에 잘못된 내용이나 궁금한 사항이 있으면 댓글 달..
Problem #5 : GD(Gradient Descent)를 이용한 가중치 업데이트 (3) 하단의 표를 이용하여 아래의 그림에 표시된 w3을 두 번 업데이트 값을 계산하시오. 단, 초기 w1, w2, w3의 값은 1이며, 활성화 함수(Activation function)은 ReLU를 사용한다. 또한 momentum rate와 learning rate는 1이다. Error function은 MSE로 하단에 표시된 식과 같다. 풀이를 원하실 경우, 하단의 '더보기' 를 클릭해주시기 바랍니다. 더보기 아래의 내용은 필자가 직접 작성한 풀이입니다. >> 위 내용은 필자가 공부하여 직접 정리한 내용이며, 위 그림 역시 직접 그린 그림이므로 워터마크 "s5unnyjjj"를 삽입하였음을 알려드립니다. >> 부족한 ..
Problem #4 : GD(Gradient Descent)를 이용한 가중치 업데이트 (2) 하단의 표를 이용하여 아래의 그림에 표시된 w1의 업데이트 값을 계산하시오. 단, 초기 w1, w2, w3의 값은 1이며, 활성화 함수(Activation function)은 ReLU를 사용한다. 또한 learning rate는 1이다. Error function은 MSE로 하단에 표시된 식과 같다. 풀이를 원하실 경우, 하단의 '더보기' 를 클릭해주시기 바랍니다. 더보기 아래의 내용은 필자가 직접 작성한 풀이입니다. >> 위 내용은 필자가 공부하여 직접 정리한 내용이며, 위 그림 역시 직접 그린 그림이므로 워터마크 "s5unnyjjj"를 삽입하였음을 알려드립니다. >> 부족한 점이 많을 수 있기에 잘못된 내용이..
Problem #3 : GD(Gradient Descent)를 이용한 가중치 업데이트 (1) 하단의 표를 이용하여 아래의 그림에 표시된 w3의 업데이트 값을 계산하시오. 단, 초기 w1, w2, w3의 값은 1이며, 활성화 함수(Activation function)은 ReLU를 사용한다. 또한 learning rate는 1이다. Error function은 MSE로 하단에 표시된 식과 같다. 풀이를 원하실 경우, 하단의 '더보기' 를 클릭해주시기 바랍니다. 더보기 아래의 내용은 필자가 직접 작성한 풀이입니다. >> 위 내용은 필자가 공부하여 직접 정리한 내용이며, 위 그림 역시 직접 그린 그림이므로 워터마크 "s5unnyjjj"를 삽입하였음을 알려드립니다. >> 부족한 점이 많을 수 있기에 잘못된 내용이..
Problem #2 : 가중치를 이용한 출력값 계산 (2) 하단의 표를 이용하여 아래의 그림에 표시된 각 노드의 출력 값을 계산하시오. 해당 문제에서 활성화 함수(Active function)는 ReLU라고 가정한다. 풀이를 원하실 경우, 하단의 '더보기' 를 클릭해주시기 바랍니다. 더보기 아래의 내용은 필자가 직접 작성한 풀이입니다. >> 위 내용은 필자가 공부하여 직접 정리한 내용이며, 위 그림 역시 직접 그린 그림이므로 워터마크 "s5unnyjjj"를 삽입하였음을 알려드립니다. >> 부족한 점이 많을 수 있기에 잘못된 내용이나 궁금한 사항이 있으면 댓글 달아주시기 바랍니다. >> 긴 글 읽어주셔서 감사합니다.