최적 전송 기반 폐쇄형 스타일 변환
본 논문은 신경 스타일 전송을 최적 수송 문제로 재구성하고, 콘텐츠 손실을 동시에 최소화하는 폐쇄형 해법인 Optimal Style Transfer(OST)를 제시한다. 기존 AdaIN·WCT를 특수 경우로 포함하며, 구조 보존과 시각적 품질에서 우수함을 실험적으로 입증한다.
저자: Ming Lu, Hao Zhao, Anbang Yao
본 논문은 “Universal Style Transfer”(UST) 분야에서 피처 변환이 핵심이라는 점을 출발점으로 삼아, 이를 최적 수송(Optimal Transport, OT) 관점에서 재해석한다. 기존 UST 방법들은 VGG 네트워크의 여러 레이어를 인코더로 사용하고, 각각에 대응하는 디코더를 학습해 피처를 이미지로 복원한다. 스타일 전송은 콘텐츠 피처와 스타일 피처 사이의 변환 행렬 T를 적용함으로써 이루어지며, 대표적인 변환 기법으로는 AdaIN과 WCT가 있다. AdaIN은 각 채널을 독립적인 가우시안으로 가정하고 평균·분산만 맞추지만, 채널 간 상관관계를 무시한다. 반면 WCT는 전체 공분산 행렬을 맞추어 채널 상관을 반영하지만, 변환 행렬에 정규직교 행렬 Q를 곱해도 제약을 만족하므로 무수히 많은 해가 존재한다. 또한, WCT는 콘텐츠 손실을 고려하지 않아 구조 보존이 약한 것이 단점이다.
논문은 이러한 한계를 극복하기 위해 다음과 같은 두 가지 가정을 세운다. 첫째, 콘텐츠와 스타일 피처를 각각 다변량 정규분포 N(μ_c, Σ_c), N(μ_s, Σ_s)로 모델링한다. 둘째, 변환은 선형이라고 가정한다. 이때 OT의 기본 제약식 T Σ_c Tᵀ = Σ_s가 성립한다. 이 제약만으로는 무한히 많은 T가 존재하므로, 추가적으로 Gatys가 제시한 콘텐츠 손실 ‖T(u−μ_c)+μ_s−u‖²의 기대값을 최소화한다.
수학적 전개는 기대값을 트레이스 형태로 변환하고, φ = E
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기