Lumiere, and s5unnyjjj

Code Review: Vision Transformer (Tensorflow version) 본문

Review (Paper, Code ...)/Code Review

Code Review: Vision Transformer (Tensorflow version)

s5unnyjjj 2022. 4. 29. 23:18
반응형

일전에 Vision Transformer (ViT) 모델 구조를 리뷰하며 스터디한 것을 기반으로 ViT 모델 구조를 직접 구현해보았습니다.

https://s5unnyjjj.tistory.com/77

 

Code Review: Vision Transformer (Ref: Google research github)

Vision Transformer (ViT) 모델 구조를 코드와 함께 리뷰해보려합니다. Paper: https://arxiv.org/abs/2010.11929 Offifical github: https://github.com/google-research/vision_transformer GitHub - google-res..

s5unnyjjj.tistory.com

 

대게 ViT 모델이 pytorch 기반으로 되어있기에 Google research github과 paper를 참고하며 tensorflow로 변경해보았습니다.

Paper: https://arxiv.org/abs/2010.11929

Offifical github: https://github.com/google-research/vision_transformer

 

GitHub - google-research/vision_transformer

Contribute to google-research/vision_transformer development by creating an account on GitHub.

github.com

 

구현 후, model.summary()를 통해 total parameter를 확인해 본 결과 304,123,880이 나왔습니다. 

 

그런데 분명 paper에 있는 ViT-Large 버전으로 각 변수들의 값을 설정하였는데, 307M(=307,000,000)이 나옵니다. 크지는 않지만 2,876,120 정도가 차이납니다. 추정상, 모델 구현을 하다 일부 빠진 layer가 있을 것으로 추정이 됩니다. 

 

몇주 전에 이미 모델 구현을 완성했지만, 파라미터 값이 같지않아 계속 찾으려고 했지만 보이지 않습니다.

Github을 먼저 업로드 한 후, 지속적으로 시간을 투자해서 어느 부분이 빠졌는지 찾아보고 찾게되면 추가로 재업로드하도록 하겠습니다.

 

----------------------------------------------------------------------------------------------------

 

>> 위 내용은 필자가 직접 작성한 내용입니다.

>> 필자가 직접 구현한 코드를 아래의 링크에 업로드하였으니 참고바랍니다.

https://github.com/s5unnyjjj/vision-transformer/tree/main

>> 부족한 점이 많을 수 있기에 잘못된 내용이나 궁금한 사항이 있으면 댓글 달아주시기 바랍니다.

>> 긴 글 읽어주셔서 감사합니다. 

 

반응형
Comments