CycleDiff: 확산 모델을 활용한 무쌍 이미지‑투‑이미지 변환
초록
본 논문은 쌍이 없는 이미지‑투‑이미지 변환 문제를 해결하기 위해 확산 모델과 사이클 일관성 번역기를 공동 학습하는 프레임워크인 CycleDiff를 제안한다. 이미지 성분을 추출해 번역 네트워크에 입력하고, 시간 의존적인 번역기를 도입해 각 디노이징 단계마다 다중 스텝 매핑을 수행함으로써 전역 최적화와 구조적 일관성을 동시에 달성한다. RGB↔RGB, RGB↔Edge, RGB↔Semantic, RGB↔Depth 등 다양한 도메인에서 기존 최첨단 방법들을 능가하는 성능을 기록한다.
상세 분석
CycleDiff는 두 개의 도메인‑별 확산 모델과 하나의 사이클 번역기로 구성된다. 기존 확산 기반 방법들은 노이즈가 섞인 신호에 대해 번역을 수행하거나, 번역 모듈을 별도로 학습해 전체 최적화가 이루어지지 않는 한계를 가지고 있었다. 이를 극복하기 위해 저자는 ‘이미지 컴포넌트’를 정의한다. 확산 과정에서 각 타임스텝 t에 대해 denoising U‑Net이 예측하는 이미지 감쇠 그래디언트 Cₛₜ를 깨끗한 신호의 근사치로 사용하고, 이를 번역 네트워크의 입력으로 활용한다. 이렇게 하면 번역 과정이 노이즈와 무관하게 순수한 이미지 구조에 집중할 수 있다.
번역 네트워크는 시간‑의존적인 구조를 갖는다. 구체적으로, Gϕ와 Fψ는 각각 S→T, T→S 매핑을 수행하며, 입력 이미지 컴포넌트와 현재 타임스텝 t를 함께 인코딩한다. 타임 임베딩을 feature에 합성함으로써 각 디노이징 단계마다 서로 다른 변환 함수를 학습한다. 이는 기존의 ‘한 번의 매핑’ 방식과 달리 다중 스텝에 걸친 연속적인 변환을 가능하게 하여, 복잡한 도메인 간 차이를 보다 정교하게 모델링한다.
학습 목표는 세 부분으로 구성된다. ① 확산 모델 자체의 재구성 손실(L₂ 기반)로 이미지 컴포넌트와 노이즈를 정확히 복원한다. ② 사이클 일관성 손실(L₁ 혹은 L₂)로 G와 F가 서로 역전될 때 원본 컴포넌트와 복원된 컴포넌트가 일치하도록 강제한다. ③ 이미지‑레벨의 정규화(예: VGG 기반 퍼셉트럴 손실)와 판별기 없이도 고품질 결과를 얻기 위해 구조적 일관성을 강조한다. 모든 손실이 하나의 총합으로 결합되어 end‑to‑end 방식으로 최적화된다.
실험에서는 네 가지 주요 변환 시나리오(RGB↔RGB, RGB↔Edge, RGB↔Semantic, RGB↔Depth)를 대상으로 FID, IS, LPIPS 등 정량적 지표와 시각적 품질을 평가하였다. 특히 Dog→Cat, Dog→Wild 같은 도메인 간 변환에서 기존 최첨단 GAN 기반 방법보다 FID가 19.6~19.7 포인트 개선되었으며, 구조적 일관성을 측정하는 mAP와 SSIM에서도 유의미한 상승을 보였다. 이는 번역 과정이 디노이징 단계와 긴밀히 결합돼 전역 최적화가 이루어졌기 때문으로 해석된다.
또한, 시간‑의존적인 번역 네트워크가 없을 경우 동일한 프레임워크를 사용하더라도 성능이 급격히 저하되는 실험 결과를 제시함으로써, 타임 임베딩의 중요성을 입증하였다. 모델 복잡도 측면에서는 기존 확산 기반 방법과 비슷하거나 약간 높은 메모리 사용량을 보였지만, 샘플링 단계 수를 1000→200으로 줄이는 DDIM‑style 가속 기법과 결합해 실시간에 가까운 추론 속도도 달성했다.
요약하면, CycleDiff는 (1) 이미지 컴포넌트 추출을 통한 확산‑번역 정렬, (2) 시간‑의존적 다중 스텝 번역, (3) 사이클 일관성 기반 전역 최적화라는 세 가지 핵심 설계로 무쌍 이미지 변환에서 기존 GAN 및 확산 기반 방법들을 능가한다. 향후 고해상도·다중 도메인 확장, 텍스트‑조건부 번역 등으로 응용 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기