텍스트 이미지 확산 모델의 공간 정렬 향상을 위한 InfSplign
📝 원문 정보
- Title:
- ArXiv ID: 2512.17851
- 발행일:
- 저자: Unknown
📝 초록 (Abstract)
텍스트‑이미지(T2I) 확산 모델은 고품질 이미지를 생성하지만, 텍스트 프롬프트에 명시된 공간 관계를 정확히 반영하지 못하는 경우가 많다. 이러한 한계는 (1) 학습 데이터에 미세한 공간 감독이 부족하고, (2) 텍스트 임베딩이 공간 의미를 충분히 인코딩하지 못한다는 두 요인으로 귀결된다. 본 연구에서는 InfSplign이라는 훈련‑프리 추론‑시 방법을 제안한다. InfSplign은 각 디노이징 단계마다 복합 손실을 통해 노이즈를 조정함으로써 공간 정렬을 개선한다. 제안된 손실은 백본 디코더에서 추출한 다양한 레벨의 교차‑어텐션 맵을 활용해 객체의 정확한 위치 배치를 강제하고, 샘플링 과정에서 객체 존재 비율을 균형 있게 유지한다. 이 방법은 경량이며 플러그‑인 형태로 어떤 확산 백본에도 적용 가능하다. VISOR와 T2I‑CompBench에 대한 포괄적 평가 결과, InfSplign은 기존 최고 수준의 추론‑시 기반 베이스라인을 크게 앞서며, 파인‑튜닝 기반 방법조차 능가하는 새로운 최첨단 성능을 달성한다. 코드베이스는 GitHub에 공개된다.💡 논문 핵심 해설 (Deep Analysis)
텍스트‑이미지 생성 분야에서 확산 모델은 최근 몇 년간 눈부신 발전을 이루었지만, “무엇을” 생성할지는 잘 수행하면서도 “어디에” 배치할지는 여전히 취약점으로 남아 있다. 이 문제의 근본 원인은 두 가지로 요약할 수 있다. 첫째, 대규모 이미지‑텍스트 쌍 데이터는 일반적으로 객체 간 상대적 위치 정보를 명시적으로 제공하지 않는다. 따라서 모델은 학습 과정에서 미세한 공간 제약을 학습할 기회를 얻지 못한다. 둘째, 현재 사용되는 텍스트 인코더(예: CLIP‑Text)는 토큰 수준의 의미를 잘 포착하지만, “왼쪽에 사과, 오른쪽에 바나나”와 같은 공간적 관계를 직접적으로 표현하는 능력이 제한적이다. 결과적으로 디코더는 텍스트 임베딩을 기반으로 전역적인 이미지 구성을 만들지만, 세부적인 위치 정렬은 교차‑어텐션 맵에 의존하게 된다. 교차‑어텐션은 텍스트 토큰과 이미지 토큰 사이의 연관성을 나타내지만, 훈련 시 명시적인 위치 손실이 없으면 이 맵은 대략적인 영역만을 강조한다.InfSplign은 이러한 구조적 한계를 추론 단계에서 보완한다. 핵심 아이디어는 매 디노이징 스텝마다 현재 노이즈 샘플에 ‘공간 정렬 손실’을 추가해, 교차‑어텐션 맵이 가리키는 위치와 실제 객체 배치가 일치하도록 유도하는 것이다. 구체적으로, 저수준(초기 레이어)부터 고수준(후기 레이어)까지 여러 스케일의 어텐션 맵을 추출한다. 저수준 맵은 세밀한 경계와 위치 정보를 제공하고, 고수준 맵은 객체 전체의 존재 여부를 나타낸다. 두 종류의 정보를 결합한 복합 손실은 (1) 목표 객체가 지정된 좌표에 정확히 나타나도록 하는 위치 정렬 항목과, (2) 모든 객체가 과도하게 누락되거나 과다 생성되지 않도록 하는 존재 균형 항목으로 구성된다. 손실값은 역전파를 통해 현재 노이즈에 직접 피드백되며, 이는 기존 샘플링 과정에 최소한의 연산만 추가한다.
이 접근법의 장점은 크게 세 가지이다. 첫째, 모델 파라미터를 전혀 수정하지 않으므로 기존의 사전 학습된 확산 모델을 그대로 활용할 수 있다. 둘째, 손실 계산에 필요한 교차‑어텐션 맵은 이미 디코더 내부에서 생성되므로 별도의 추가 네트워크가 필요 없으며, 연산량 증가가 미미하다. 셋째, 다양한 백본(Stable Diffusion, DALL·E 2 등)에 적용 가능하므로 범용성이 높다. 실험에서는 VISOR와 T2I‑CompBench이라는 두 개의 벤치마크에서 정량적 지표(FID, CLIP‑Score, Spatial‑Accuracy 등)가 기존 추론‑시 방법들보다 크게 향상되었으며, 파인‑튜닝 기반 방법보다도 우수한 결과를 보였다. 이는 “훈련‑프리” 접근법이 실제로 공간 정렬 문제를 해결하는 데 충분히 강력함을 입증한다. 앞으로는 손실 함수에 더 정교한 기하학적 제약을 도입하거나, 사용자 정의 레이아웃을 직접 입력받는 인터페이스와 결합함으로써, 텍스트‑투‑이미지 생성의 실용성을 한층 높일 수 있을 것으로 기대된다.