그레이스케일 이미지 색채화를 위한 신경망 샘플링 기법 비교
초록
본 논문은 CIFAR‑10을 이용해 회색조 이미지의 색채화를 목표로, 기존 CNN 기반 방법과 여러 최신 생성 모델(CVAE, CWGAN‑GP, CWGAN‑GP+L1, AGE, IVAE)을 비교한다. 성능 평가는 Inception Score와 인간 시각 평가로 수행했으며, CVAE‑L1과 IVAE가 가장 높은 IS를 기록하고, 정규화와 L1 손실이 학습 안정성 및 다양성에 미치는 영향을 분석한다.
상세 분석
논문은 색채화 문제를 다중 모달리티(같은 회색조 입력에 대해 여러 가능한 색상 출력)로 정의하고, 이를 해결하기 위한 생성 모델들의 구조적 차이를 상세히 검토한다. 먼저, 전통적인 CNN 기반 L1/L2 복원 손실만을 사용하는 베이스라인을 제시하고, 이후 조건부 변분 오토인코더(CVAE)를 도입해 입력 회색조 이미지와 색상 라벨을 조건으로 삼아 잠재 공간을 학습한다. CVAE에 L1 복원 손실을 추가함으로써 픽셀 수준의 정확성을 강화했으며, 이는 IS 점수 상승으로 이어졌다.
다음으로 Wasserstein GAN with Gradient Penalty(CWGAN‑GP)를 적용했는데, 이는 판별기의 Lipschitz 제약을 gradient penalty로 구현해 훈련 불안정을 완화한다. CWGAN‑GP에 L1 복원 손실을 결합한 변형은 학습 속도가 빨라졌지만, IS 점수는 크게 개선되지 않아 정규화와 재구성 손실 간의 트레이드오프를 보여준다. 특히, CWGAN‑GP는 L1 손실이 없는 경우 색채 다양성이 가장 높았으며, 이는 GAN이 모드 붕괴 없이 다양한 색조를 생성할 수 있음을 시사한다.
Adversarial Generative Encoder(AGE)와 Introspective VAE(IVAE) 같은 하이브리드 모델은 VAE의 재구성 손실과 GAN의 적대적 손실을 동시에 최적화한다. AGE는 인코더와 디코더를 순환 구조로 연결해 잠재 공간의 일관성을 유지하면서도 판별자를 통해 샘플 품질을 높인다. IVAE는 VAE의 ELBO에 판별자 기반의 정규화 항을 추가해, 잠재 분포가 보다 표준 정규에 가깝게 수렴하도록 유도한다. 실험 결과, IVAE는 가장 높은 IS를 달성했으며, 인간 평가에서도 색채 자연스러움과 디테일 보존 측면에서 우수했다.
전체 실험은 CIFAR‑10을 64×64 해상도로 확대해 수행했으며, 학습은 AWS p3.2xlarge(V100)와 Google Colab(K80)에서 30시간 이내에 완료되었다. 성능 지표로는 IS 외에 FID는 언급되지 않았지만, 논문은 정규화 강도(β‑KL, gradient penalty)와 L1 손실 가중치가 모델별 최적화에 결정적 역할을 함을 강조한다. 최종적으로, 적절한 정규화와 복원 손실의 조합이 색채화 GAN/ VAE 모델의 품질과 다양성을 동시에 끌어올리는 핵심 요인으로 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기