Lumiere, and s5unnyjjj

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 본문

Review (Paper, Code ...)/Paper Review

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

s5unnyjjj 2020. 9. 13. 12:52
반응형

paper: openaccess.thecvf.com/content_iccv_2017/html/Zhu_Unpaired_Image-To-Image_Translation_ICCV_2017_paper.html

 

< Outline >

1. Introduction

2. Related Work

3. Formulation

4. Network Architecture

5. Results

6. Limitations

7. Conclusion

 

----------------------------------------------------------------------------------------------------

 

1. Introduction
 - CycleGAN의 경우에는 전체적인 형태를 유지하는 Style Transfer가 중점이다. Style Transfer란 두 개의 영상(content image, style image)이 주어졌을 때, 그 이미지의 주된 형태는 content image와 유사하게 유지하면서 스타일만 우리가 원하는 style image와 유사하게 바꾸는 것이다.

 - 추론되고 상상으로 생성되는 이미지이기에 Paired Data가 존재하지 않는다. 본 논문에서는 Adversarial Loss와 Cylce Consistency Loss를 결합한다면 unpaired image-to-image translation이 가능하다. 

 

2. Related Work

 - Generative Adversarial Networks(GANs) 는 Translated Image가 Target domain의 이미지와 구별 할 수 없게 mapping 되도록 학습하게 하기 위해 Adversarial Loss를 사용한다.

 - Unpaired Image-to-Image Translation은 VAE(Variational AutoEncoders)과 GAN을 함께 사용한다.

 - Neural Style Transfer는 두 개의 특별한 이미지가 아닌 두 개의 도메인을 매핑한다.

 - Cycle Consistency는 기존 GAN의 목적함수를 이용하여 학습시킨다면 다른 도메인으로 transfer가 될 수 는 있어도 기존의 content를 그대로 유지하도록 하는 제약조건이 없기 때문에 완전히 다른 content를 담는 결과가 발생한다. 그러므로 domain tranfer 후에도 같은 content를 유지하는 해당 loss를 사용한다.

 

3. Formulation

 2개의 Adversarial Loss와 1개의 Cycle Consistency Loss를 함께 사용하며, L(cyc)앞의 변수는 각 손실의 중요성을 의미하는 값으로 본 논문에서는 10으로 설정하였다.

 

 1) Adversarial Loss : G가 x에서 y로 변형하는 함수를 위해 mapping function에 adversarial loss를 적용한다.

 

 2) Cycle Consistency Loss : Forward cycle consistency + Backward cycle consistency

 - Generator G는 x를 받아서 허구의 y를 만들고 Discriminator D_Y는 fake/real을 분류하며 학습한다.

 - Generator F는 y를 받아서 허구의 x를 만들고 Discriminator D_X는 fake/real을 분류하며 학습한다. 

 3) LSGAN(Least Square GAN)

 - GAN loss는 Cross Entropy의 형태를 띔으로써 Vanishing Gradient 문제가 발생한다. 또한 불안정한 GAN Loss 대신 LSGAN을 사용하여 안정성을 추구한다.

 

4. Network Architecture

 1) Generator : ResNet 구조를 사용하였다. E-D구조와 유사하지만 Residual connection이 존재하므로 정보를 크게 잃지 않아서 고해상도 처리로 효과적이다.

 2) Discriminator : Pix2Pix에서 사용했던 70 x 70 PatchGAN을 사용하였다.

 

5. Results

 - GAN만 사용하게 되면 Input과의 거리감이 발생한다.

 - 하단의 그림은 Object transfiguration과 Season style transfer의 결과이다.

 

 - 하단의 그림은 특정 작품의 스타일을 변형하는게 아니라 전체 삽화의 스타일을 모방하는 Collection style transfer의 결과이다.

 - 하단의 그림은 Identity Mapping을 적용하지 않으면 작은 변화가 발생된 output을 생성하기에 Identity Mapping을 적용한 Photo generation from paintings의 결과이다.

 

 - input을 output으로 그대로 전달하는 형태인 Identity Mapping의 결과이다.

 

6. Limitations

 - CycleGAN의 최대 단점은 모양을 바꾸기가 어렵다는 것이다.

 

 - Optimization 문제라기 보다는 Dataset의 문제로 추정되는 즉, 데이터 분포의 한계가 보인다.

 

7. Conclusion

 - Pix2Pix에 Cycle Consistency를 도입하여 Unpaired Dataset에서도 동작이 가능하며, 고해상도의 Style Transfer를 목적으로 ResNet, LSGAN, PatchGAN 등을 사용하였지만, 제약 조건 때문에 형태를 크게 변형시키는 것은 어려우며 Network 규모가 커서 학습이 느리다는 단점이 있다.


>> 부족한 점이 많을 수 있기에 잘못된 내용이나 궁금한 사항이 있으면 댓글 달아주시기 바랍니다.

>> 긴 글 읽어주셔서 감사합니다. 

반응형
Comments