깊이분리 GAN을 활용한 빠른 이미지 합성
초록
본 논문은 기존 StarGAN 구조의 합성곱 레이어를 깊이분리(depthwise separable) 합성곱으로 교체하여 파라미터 수와 연산량을 크게 줄이고, 특히 생성기(G)에서만 적용했을 때 학습 속도가 현저히 빨라지면서도 이미지 품질은 유지된다는 것을 실험적으로 입증한다. 모델 용량이 충분히 확보될 경우 깊이분리 GAN이 기존 StarGAN과 동등한 FID 점수를 달성한다.
상세 분석
DepthwiseGAN은 표준 합성곱 대신 깊이분리 합성곱을 도입함으로써 파라미터와 FLOPs를 크게 감소시킨다. 깊이분리 합성곱은 각 채널에 대해 독립적인 공간 합성곱(depthwise)과 1×1 점곱(pointwise)으로 구성되며, 이는 전통적인 K×K 합성곱에 비해 연산량을 약 1/K² 정도로 줄인다. 논문에서는 이 구조를 StarGAN의 생성기와 판별기 두 네트워크에 각각 적용한 세 가지 변형(DepthwiseDG, DepthwiseG, DeeperDepthwiseG)을 설계하였다. 실험 결과, 생성기만 깊이분리 합성곱을 적용한 DepthwiseG와, 이를 더 깊게 쌓은 DeeperDepthwiseG가 가장 좋은 성능을 보였다. 반면, 판별기까지 깊이분리 합성곱을 적용한 DepthwiseDG는 이미지 품질이 크게 저하되어 FID가 크게 상승하였다. 이는 판별기의 표현력 손실이 학습 안정성에 부정적 영향을 미치기 때문으로 해석된다.
또한, 모델 용량(파라미터 수)이 결과에 미치는 영향을 상세히 분석하였다. DepthwiseG는 파라미터가 1.5 M으로 StarGAN(8.5 M)보다 현저히 작지만, 학습 초기에 FID 감소 속도가 빠르고 175 epoch 이후 StarGAN과 비슷한 수준에 도달한다. 그러나 파라미터가 너무 적으면 블러 현상과 세부 디테일 손실이 발생한다. 이를 보완하기 위해 DeeperDepthwiseG는 깊이분리 합성곱 레이어를 11개로 늘려 파라미터를 5.6 M까지 증가시켰으며, 이는 StarGAN과 거의 동일한 FID를 달성하면서도 학습 시간은 2 일(StarGAN은 3 일)로 단축된다.
데이터셋은 CelebA(128×128), RaFD, Stirling 3D Face 등 세 가지 얼굴 이미지 데이터셋을 사용했으며, 각 데이터셋에 대해 다중 도메인 변환(성별, 헤어 컬러, 표정 등)을 수행하였다. 평가 지표는 Fréchet Inception Distance(FID)이며, 20 000 epoch마다 140장의 샘플을 추출해 계산하였다. 결과 그래프는 DepthwiseG와 DeeperDepthwiseG가 초기 수렴이 빠르고, 최종 FID는 StarGAN과 차이가 없음을 보여준다.
요약하면, 깊이분리 합성곱은 생성기에서만 적용할 경우 파라미터 효율성을 크게 높이며, 충분한 네트워크 깊이를 확보하면 기존 고성능 GAN과 동등한 이미지 품질을 유지한다. 반면, 판별기에 적용하면 표현력 감소로 인해 전체 모델 성능이 저하된다. 이 연구는 경량화된 GAN 설계에 있어 생성기 중심의 구조 최적화가 핵심임을 실증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기