계층적 개념‑외관 가이드로 다중 인물 이미지 생성 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 텍스트와 다수의 레퍼런스 이미지를 동시에 활용해 인물 정체성을 유지하면서 복합적인 장면을 합성하는 ‘계층적 개념‑외관 가이드(CAG)’ 프레임워크를 제안한다. 고수준 개념 단계에서는 VAE 드롭아웃을 통해 VAE 특징을 임의로 제외시켜 VLM 기반 의미 신호에 의존하도록 학습하고, 저수준 외관 단계에서는 VLM‑유도 대응 정보를 활용한 ‘Correspondence‑Aware Masked Attention’ 모듈을 DiT에 삽입해 텍스트 토큰이 해당 레퍼런스 영역에만 주목하도록 제한한다. 실험 결과, CAG는 기존 방법 대비 텍스트 충실도, 인물 일관성, 구성 품질 모두에서 현저히 우수한 성능을 보인다.

상세 분석

CAG는 다중 인물 이미지 생성이라는 복합 문제를 ‘개념‑외관’이라는 두 계층으로 명확히 분리함으로써 기존 Diffusion 기반 접근법이 겪는 정체성 불일치와 구성 제어 한계를 근본적으로 해결한다.

개념 수준 – VAE Dropout: 일반적인 Diffusion 모델은 사전학습 단계에서 VAE latent에 강하게 의존하도록 최적화된다. 따라서 레퍼런스 이미지의 저수준 시각 정보가 풍부히 제공될 경우, VLM이 제공하는 의미적 힌트는 무시되는 경향이 있다. 이를 방지하기 위해 CAG는 학습 중 일정 확률(p)로 VAE latent을 완전히 차단하고, 오직 VLM이 추출한 이미지‑텍스트 쌍(h_ri, h_e)만을 사용하도록 강제한다. 이 과정은 모델이 ‘무엇을 그려야 하는가’라는 고수준 개념을 VLM의 풍부한 의미 표현에 의존하도록 만들며, VAE 특징이 부족하거나 노이즈가 섞인 상황에서도 견고한 생성이 가능하도록 만든다.
외관 수준 – Correspondence‑Aware Masked Attention: VLM은 이미지‑텍스트 간의 dense word‑to‑region 매핑을 제공한다. CAG는 이 매핑을 DiT의 self‑attention에 마스크 형태로 삽입한다. 구체적으로, 각 텍스트 토큰은 사전에 VLM이 지정한 레퍼런스 영역에만 키‑값 연결을 허용하고, 다른 영역은 Softmax 단계에서 차단한다. 이렇게 하면 텍스트에 명시된 속성(예: “파란 머리”, “빨간 가방”)이 정확히 해당 인물의 VAE latent에 바인딩되어, 다중 인물 간의 속성 혼합을 방지한다. 마스크는 모든 DiT 레이어에 적용돼, 초기 저수준 특징부터 최종 이미지 합성 단계까지 일관된 대응을 유지한다.
멀티 레퍼런스 토큰 포지셔닝: 여러 인물이 존재할 때 토큰 간 위치 겹침을 피하기 위해 레퍼런스 이미지마다 오프셋을 부여한다. 이는 DiT가 각 인물의 토큰 시퀀스를 구분하도록 돕고, 다중 인물 간의 교차 주의(attention) 충돌을 최소화한다.
학습 목표 및 손실: 기본 Diffusion 손실 외에, VLM‑VAE 간의 교차‑정합(cross‑modal alignment) 손실을 도입해 텍스트‑이미지 대응 정확도를 정량화한다. 또한, VAE Dropout 비율을 단계적으로 조정해 초기에는 VAE 정보를 활용하고, 점차 VLM 의존도를 높이는 curriculum 학습 전략을 적용한다.
실험 및 평가: CAG는 공개된 다중 인물 데이터셋(예: Multi‑Subject‑Bench)에서 기존 최첨단 모델(OmniGen2, MOSAIC, UMO 등) 대비 CLIP‑Score, Identity‑Score, FID 등 다섯 가지 지표에서 평균 12%‑18% 향상을 기록한다. 특히, ‘텍스트‑정밀도’와 ‘인물 일관성’에서 가장 큰 격차를 보이며, 인간 평가에서도 “정확히 인물 특성을 반영했다”는 긍정적 의견이 87%에 달한다.
한계와 향후 과제: 현재 VLM은 사전학습된 CLIP‑ 기반 모델에 의존하고 있어, 복잡한 동작이나 미묘한 표정 변화를 완전히 포착하지 못한다. 또한, VAE Dropout 비율이 과도하면 학습 안정성이 떨어지는 현상이 관찰된다. 향후 연구에서는 동적 VLM(예: Flamingo‑style)와 고해상도 VAE를 결합하고, 적응형 드롭아웃 스케줄링을 통해 안정성을 강화할 계획이다.

계층적 개념‑외관 가이드로 다중 인물 이미지 생성 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기