컨텍스트젠: 레이아웃과 정체성을 동시에 잡는 다중 객체 이미지 생성

컨텍스트젠: 레이아웃과 정체성을 동시에 잡는 다중 객체 이미지 생성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ContextGen은 레이아웃 이미지와 참조 이미지를 동시에 활용해 다중 객체 이미지를 생성하는 Diffusion Transformer 모델이다. 핵심은 레이아웃을 고정시키는 Contextual Layout Anchoring(CLA)과 객체 정체성을 유지하는 Identity Consistency Attention(ICA)이다. 또한 IMIG-100K라는 대규모 레이아웃·정체성 주석 데이터셋을 구축해 학습하였다. 실험 결과, 기존 모델 대비 레이아웃 정확도와 정체성 보존에서 크게 향상된 성능을 보였다.

상세 분석

ContextGen은 최신 Diffusion Transformer(DiT) 구조를 기반으로, 레이아웃 제어와 정체성 보존이라는 두 가지 핵심 요구를 동시에 해결한다는 점에서 의미가 크다. 먼저 제안된 Contextual Layout Anchoring(CLA) 메커니즘은 복합 레이아웃 이미지를 토큰 시퀀스에 포함시켜, 레이아웃 토큰과 기본 이미지 토큰 사이에 전역적인 어텐션 마스크를 적용한다. 이를 통해 레이아웃 이미지가 전체 생성 과정에서 ‘앵커’ 역할을 수행해, 객체가 지정된 좌표에 정확히 배치되도록 강제한다. 기존 레이아웃‑투‑이미지 방식이 종종 객체 간 겹침이나 위치 오차를 보였던 점을 크게 개선한다.

두 번째 핵심인 Identity Consistency Attention(ICA)은 레이아웃 내부의 각 바운딩 박스에 해당하는 토큰들에 대해, 해당 객체의 고해상도 참조 이미지 토큰과 강하게 연결되는 어텐션 마스크를 정의한다. 구체적으로, 질의 토큰 q가 특정 객체 Bₙ에 속하면, 키 토큰 k는 텍스트·레이아웃·해당 객체의 참조 이미지 토큰에만 연결된다. 이렇게 하면 객체별 세부 특징(색상, 질감, 형태 등)이 레이아웃 제어와 별개로 보존되어, 다중 객체가 겹치거나 복잡한 상호작용을 할 때도 정체성 손실이 최소화된다.

또한 Position Indexing을 확장해, 기본 이미지 토큰은 (0,i,j) 좌표를, 레이아웃·참조 이미지 토큰은 (1, offset_i, offset_j) 형태의 고유 인덱스를 부여한다. 이는 토큰 간 위치 혼동을 방지하고, 어텐션 연산이 각 모달리티를 명확히 구분하도록 돕는다.

데이터 측면에서 IMIG-100K는 기존의 단일 객체 혹은 텍스트‑이미지 쌍 데이터와 달리, 100,000개의 고해상도 이미지에 대해 레이아웃 박스와 동일 객체의 참조 이미지(다중 시점·조명 변형 포함)를 제공한다. 세 가지 서브셋(기본 구성, 복합 상호작용, 유연한 합성)으로 구성돼, 모델이 단순 배치부터 복잡한 occlusion, 포즈 변형까지 학습하도록 설계되었다.

실험에서는 COCO‑MIG, LayoutSAM‑Eval, LAMICBench++ 등 세 가지 벤치마크에서 기존 최첨단 모델(OminiGen2, DreamO, MS‑Diffusion 등)을 크게 앞섰다. 특히 mIoU와 인스턴스 성공률에서 각각 +5.9%, +3.3% 향상됐으며, 정체성 유지 점수는 GPT‑4o 대비 +13.3% 상승했다. Ablation study는 CLA와 ICA 각각이 레이아웃 정확도와 정체성 점수에 미치는 기여도를 명확히 보여준다.

전반적으로 ContextGen은 레이아웃‑조건부 이미지 생성과 객체‑조건부 이미지 생성 사이의 격차를 메우는 통합 프레임워크로, 어텐션 마스크 설계와 포지션 인코딩 전략이 핵심 혁신이다. 향후 텍스트‑조건과 결합하거나, 3D 장면 생성으로 확장하는 연구에 좋은 기반을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기