CoDi: 일관된 피사체와 다양한 포즈를 동시에 구현하는 텍스트‑투‑이미지 생성

CoDi: 일관된 피사체와 다양한 포즈를 동시에 구현하는 텍스트‑투‑이미지 생성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CoDi는 확산 모델의 초기‑후반 단계 차이를 활용해, 초기 단계에서는 최적 수송(Optimal Transport) 기반의 Identity Transport(IT)로 피사체의 정체성을 포즈에 맞게 전달하고, 후반 단계에서는 Identity Refinement(IR)로 세부 디테일을 강화한다. 이를 통해 기존 훈련‑무료 방법이 겪던 일관성 vs. 포즈 다양성의 트레이드오프를 크게 완화한다.

상세 분석

본 논문은 텍스트‑투‑이미지(T2I) 생성에서 “피사체 일관성(SCG)”과 “포즈·레이아웃 다양성”을 동시에 만족시키는 훈련‑무료 프레임워크인 CoDi를 제안한다. 핵심 아이디어는 확산 모델의 denoising 과정이 저주파(구조·포즈)와 고주파(세부·텍스처) 정보를 순차적으로 생성한다는 관찰에 기반한다. 초기 단계(예: 1~10스텝)에서는 저주파 정보가 형성되므로, 여기서 피사체의 정체성을 전달하면 포즈와 배경을 그대로 유지하면서 일관된 피사체를 삽입할 수 있다. 이를 위해 CoDi는 Reference 이미지에서 추출한 subject mask와 cross‑attention 기반 마스크를 이용해 피사체 전용 특징 S_id와 각 타깃 이미지의 특징 S_n을 얻는다. 이후 최적 수송(Optimal Transport) 문제를 정의해 비용 행렬 C를 코사인 거리로, 질량 a·b를 마스크 기반 중요도(softmax 정규화)로 설정하고, 네트워크 심플렉스 알고리즘으로 최적 수송 플랜 T_n을 계산한다. 플랜을 통해 S_id를 재배열·전송해 S_OT_n을 만든 뒤, 배경 특징과 결합해 초기 단계의 latent을 교정한다.

후반 단계(예: 11~50스텝)에서는 고주파 디테일이 정제되므로, CoDi는 Identity Refinement(IR) 모듈을 적용한다. IR은 기존의 cross‑image attention 방식을 차용하지만, 키·밸류를 전체가 아니라 IT 단계에서 이미 정렬된 피사체 특징에 집중한다. 이를 통해 중요한 정체성 요소를 선택적으로 강화하면서도 포즈 다양성을 유지한다.

비교 실험에서는 ILSVRC‑based SCG 벤치마크 ConsiStory+와 SDXL 기반 베이스라인을 사용해 세 가지 지표(Subject Consistency, Pose Diversity, Prompt Fidelity)를 정량화하였다. CoDi는 기존 훈련‑무료 방법이 포즈 다양성을 크게 희생하는 현상을 극복하고, 일관성 점수와 프롬프트 충실도 모두에서 상위권을 기록한다. 정성적 결과에서도, 인물·동물·판타지 캐릭터 등 다양한 도메인에서 포즈가 크게 달라짐에도 불구하고 얼굴·색채·텍스처가 일관된 모습을 확인할 수 있다.

한계점으로는 OT 플랜 계산이 이미지당 O(N²) 복잡도를 갖으며, 마스크 추출이 교차‑attention에 의존해 복잡한 배경이나 얇은 피사체에 대해 정확도가 떨어질 수 있다는 점을 언급한다. 또한, 현재 구현은 SDXL 기반 확산 모델에 특화돼 있어 다른 아키텍처로의 일반화는 추가 연구가 필요하다.

전반적으로 CoDi는 “초기 단계에서 구조적 정체성 전송 → 후반 단계에서 세부 정제”라는 두 단계 전략을 통해, 훈련‑무료 환경에서도 피사체 일관성과 포즈·레이아웃 다양성을 동시에 달성할 수 있음을 실증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기