확장 가능한 다중 도메인 번역을 위한 확산 라우터
초록
본 논문은 중앙 도메인과 K‑1개의 쌍을 이용해 K개의 모든 도메인 간 번역을 가능하게 하는 Universal Multi‑Domain Translation(UMDT) 문제를 정의하고, 소스·타깃 도메인 라벨을 조건으로 하는 단일 노이즈 예측 네트워크를 제안한다. 간접 번역은 중앙 도메인을 라우팅 경로로 사용하고, 직접 번역을 위해 변분 상한 기반의 KL 최소화와 효율적인 Tweedie 리파인먼트를 도입해 샘플링 비용을 크게 낮춘다. 세 개의 대규모 벤치마크에서 기존 GAN·Flow·Diffusion 기반 방법들을 능가한다.
상세 분석
UMDT는 기존 다중 도메인 번역(MDT)이 요구하던 전 domain‑tuple 정렬 데이터를 포기하고, “중심 도메인” 하나와 K‑1개의 쌍 데이터만으로 K개의 도메인 전체에 대한 양방향 매핑을 학습한다는 점에서 실용성이 뛰어나다. 이 설정은 텍스트가 중심이 되는 이미지‑텍스트‑오디오, 혹은 영어가 중심이 되는 다언어 번역 등 현실적인 시나리오와 일치한다.
핵심 아이디어는 Diffusion Router(DR)이다. 전통적인 확산 모델은 조건 y를 입력해 p(x|y)를 학습하지만, DR은 추가로 소스(src)와 타깃(tgt) 도메인 라벨을 함께 입력한다. 즉, εθ(x_t, t, src, tgt) 형태의 노이즈 예측기를 하나만 학습시켜 모든 중앙↔비중심 매핑을 동시에 모델링한다. 이는 네트워크 라우터가 IP 주소를 기반으로 경로를 결정하듯, 도메인 라벨을 통해 올바른 변환 경로를 선택하도록 설계된 것이다.
간접 번역은 두 단계로 수행된다. 첫 단계에서 소스 도메인 x_i를 조건으로 중앙 도메인 x_c를 샘플링하고, 두 번째 단계에서 x_c를 조건으로 목표 도메인 x_j를 생성한다. 이때 각 단계는 기존 조건부 확산 모델과 동일한 역확산 과정을 사용한다.
직접 번역을 위해 저자는 변분 상한을 이용해 KL 다이버전스 E_{x_i}
댓글 및 학술 토론
Loading comments...
의견 남기기