가상 피팅을 위한 정합 정렬 기법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Diffusion Transformer 기반 가상 피팅(VTON) 모델에서 사람‑의류 간 정합을 명시적으로 강화하기 위해, 외부에서 얻은 고품질 대응 정보를 활용한 정합 정렬(CORAL) 프레임워크를 제안한다. 쿼리‑키 매칭을 정밀하게 맞추는 대응 증류 손실과 어텐션 엔트로피 최소화 손실을 결합해 3D 어텐션 내 사람‑의류 매칭을 향상시키고, VLM 기반 평가를 통해 인간 선호도와 정량 지표 모두에서 기존 방법을 능가함을 입증한다.

상세 분석

본 연구는 가상 피팅(Virtual Try‑On, VTON) 과제에서 가장 핵심적인 문제인 ‘사람‑의류 정합’이 Diffusion Transformer(DiT)의 3차원(full‑3D) 어텐션 메커니즘 내부에서 쿼리‑키 매칭에 의해 결정된다는 점을 실증적으로 분석한다. 기존 VTON 모델들은 주로 U‑Net 기반 구조에 의존하거나, 의류 특성을 보강하기 위해 별도의 인코더·디코더를 추가했지만, 사람과 의류 토큰 간의 정확한 매칭을 명시적으로 제어하지 못했다. 저자들은 DiT의 어텐션 식(A_t,l = Softmax(Q·K^T/√d))에서 사람 토큰(Q_p)과 의류 토큰(K_g) 사이의 매칭 행렬 A_{P→G}를 추출하고, 이 매칭 정확도(PCK)와 최종 이미지 품질(SSIM, LPIPS) 사이에 높은 양의 상관관계가 있음을 Pearson r 값으로 제시한다. 즉, 어텐션이 집중될수록 세부 디테일 보존이 향상된다는 사실을 정량화했다.

이를 기반으로 제안된 CORAL은 두 가지 핵심 손실을 도입한다. 첫 번째는 ‘Correspondence Distillation Loss’로, 외부 비지도 비전 모델(DINOv3)에서 얻은 dense correspondence를 pseudo‑ground‑truth로 삼아 A_{P→G}와 L2 거리 기반 정규화를 수행한다. 이 과정에서 DINOv3가 제공하는 강건한 토큰‑레벨 매칭 정보를 DiT 내부 어텐션에 직접 주입함으로써, 기존의 값(value) 매트릭스가 담당하던 외관 정보와는 독립적으로 정합을 강화한다. 두 번째는 ‘Entropy Minimization Loss’로, 어텐션 행렬의 엔트로피를 최소화해 분산된 어텐션을 억제하고, 사람‑의류 매칭을 더 샤프하게 만든다. 엔트로피 최소화는 정합 정확도가 낮은 경우에도 어텐션이 무작위로 퍼지는 현상을 방지해, 학습 안정성을 크게 높인다.

구조적으로는 기존 DiT 기반 베이스라인에 ‘diptych’ 형태의 입력 레이아웃을 채택한다. 의류와 사람의 latent를 좌우로 연결하고, 포즈 토큰을 별도 토큰 차원에 삽입해 RoPE(회전 위치 임베딩)를 공유함으로써 공간적 정렬을 보장한다. 이렇게 구성된 토큰 시퀀스는 전체 3D 어텐션을 통해 사람‑의류, 사람‑포즈, 의류‑포즈 간 상호작용을 동시에 학습한다. 특히, 사람‑의류 매칭 비용 A_{P→G}에만 CORAL 손실을 적용함으로써, 다른 조건(텍스트, 포즈)에는 기존 학습 흐름을 그대로 유지한다.

실험에서는 VITON‑HD, DressCode, PPR10K 등 다양한 벤치마크와 실제 인‑와일드 사람‑대‑사람 전이 시나리오를 구축한 새로운 평가 데이터셋을 활용했다. 정량 지표에서는 SSIM, LPIPS, FID 모두에서 기존 DiT 기반 모델 대비 평균 3~5% 향상을 기록했으며, PCK@16 기준 정합 정확도 역시 12%p 상승했다. 인간 평가와 VLM(Visual Language Model) 기반 자동 평가에서도 CORAL이 가장 높은 선호도를 얻었으며, 특히 로고·패턴 같은 미세 디테일 보존에서 눈에 띄는 개선을 보였다.

아벨레이션 실험을 통해 각 구성 요소의 기여도를 분석했다. 대응 증류 손실만 적용했을 때는 정합 정확도가 크게 개선되지만 어텐션이 다소 퍼지는 현상이 남아 있었다. 반면 엔트로피 최소화만 적용하면 어텐션이 과도하게 집중돼 일부 경우 과적합 현상이 나타났다. 두 손실을 동시에 적용했을 때 가장 균형 잡힌 성능을 달성했으며, RoPE 공유를 통한 포즈 토큰 정렬 역시 포즈 일관성 유지에 중요한 역할을 한다는 것이 확인되었다.

결론적으로, 본 논문은 DiT 기반 VTON에서 사람‑의류 정합을 어텐션 레벨에서 직접 제어함으로써, 기존 방법이 놓치기 쉬운 미세 디테일 전달 문제를 효과적으로 해결한다는 점에서 의미가 크다. 또한, 외부 비전 모델을 활용한 정합 증류와 엔트로피 기반 어텐션 샤프닝이라는 두 가지 일반화 가능한 기법을 제시함으로써, 향후 Diffusion 기반 이미지 변환 전반에 적용 가능한 새로운 연구 방향을 제시한다.

가상 피팅을 위한 정합 정렬 기법

초록

상세 분석

댓글 및 학술 토론

의견 남기기