텍스트 이미지 확산 모델의 지배와 지배받음 불균형 분석
📝 원문 정보
- Title:
- ArXiv ID: 2512.20666
- 발행일:
- 저자: Unknown
📝 초록 (Abstract)
텍스트‑이미지 확산 모델은 다양하고 고품질의 이미지를 생성하는 능력으로 큰 관심을 받고 있다. 그러나 다중 개념 프롬프트를 사용할 경우, 하나의 개념 토큰이 생성 과정을 지배하여 다른 개념을 억제하는 현상이 나타난다. 이를 우리는 지배‑지배받음(DvD) 불균형이라고 명명한다. 본 연구는 DvD 불균형을 체계적으로 분석하기 위해 DominanceBench를 도입하고, 데이터와 아키텍처 양측면에서 원인을 탐색한다. 실험 결과, 학습 데이터의 제한된 인스턴스 다양성이 개념 간 간섭을 악화시킴을 확인하였다. 교차‑어텐션 동역학 분석을 통해 지배 토큰이 빠르게 어텐션을 포화시키고, 확산 타임스텝이 진행될수록 다른 토큰을 점진적으로 억제한다는 사실을 밝혀냈다. 또한 헤드 제거 실험은 DvD 현상이 다수의 어텐션 헤드에 분산된 메커니즘에서 비롯됨을 보여준다. 이러한 발견은 생성 붕괴 현상에 대한 핵심 통찰을 제공하며, 보다 신뢰성 있고 제어 가능한 텍스트‑이미지 생성으로 나아가는 길을 제시한다.💡 논문 핵심 해설 (Deep Analysis)
본 논문은 최근 급부상하고 있는 텍스트‑이미지 확산 모델이 다중 개념 프롬프트를 처리할 때 나타나는 ‘지배‑지배받음(Dominant‑vs‑Dominated, DvD) 불균형’ 현상을 심층적으로 탐구한다. 연구자는 먼저 이 현상을 정량화하고 비교할 수 있는 벤치마크인 **DominanceBench**를 구축하였다. 이 벤치마크는 다양한 개념 쌍(예: “고양이와 자동차”, “산과 바다”)을 포함하고, 각 개념별로 기대되는 시각적 비중을 사전에 정의함으로써 모델이 얼마나 균형 있게 이미지를 합성하는지를 측정한다.데이터 측면에서는 학습 코퍼스의 인스턴스 다양성이 부족할 경우, 특정 개념에 대한 표현이 과도하게 학습되어 다른 개념을 억제하는 경향이 강화된다는 실험적 증거를 제시한다. 구체적으로, 동일한 개념이 반복적으로 등장하는 이미지‑텍스트 쌍이 많을수록 해당 개념의 토큰 임베딩이 상대적으로 높은 자기‑어텐션 가중치를 획득하고, 이는 확산 과정 초기에 빠르게 주도권을 잡게 만든다.
아키텍처 분석에서는 교차‑어텐션 메커니즘을 시간축(timestep)별로 추적하였다. 초기 타임스텝에서 지배 토큰이 어텐션 맵을 급격히 포화시키고, 이후 단계에서는 이미 포화된 어텐션이 남은 토큰에게 할당될 여지를 점차 감소시킨다. 이 현상은 ‘어텐션 경쟁(attention competition)’이라고 부를 수 있으며, 결국 최종 이미지에서 지배 토큰에 해당하는 객체가 과도하게 강조되고, 다른 객체는 흐릿하거나 전혀 나타나지 않는다.
또한, 다중 어텐션 헤드가 각각 독립적으로 지배‑지배받음 현상을 강화한다는 점을 확인하기 위해 헤드 제거(ablation) 실험을 수행하였다. 특정 헤드를 차단하면 해당 헤드가 담당하던 지배 토큰의 영향력이 감소하고, 전체적인 균형이 약간 회복되는 것을 관찰했다. 이는 DvD 현상이 단일 헤드가 아니라 여러 헤드에 걸쳐 분산된 구조적 특성임을 시사한다.
이러한 분석을 종합하면, DvD 불균형은 (1) 훈련 데이터의 개념 편향, (2) 교차‑어텐션의 빠른 포화 메커니즘, (3) 다중 헤드에 분산된 어텐션 구조라는 세 축에서 동시에 발생한다는 결론에 도달한다. 논문은 해결책으로 (i) 데이터 다양성 확보를 위한 데이터 증강 및 균형 잡힌 코퍼스 구축, (ii) 어텐션 스케줄링이나 토큰‑레벨 정규화를 통한 포화 억제, (iii) 헤드‑레벨 가중치 조정 혹은 동적 헤드 선택 메커니즘 도입을 제안한다. 향후 연구는 이러한 방법론을 실제 대규모 텍스트‑이미지 모델에 적용해, 생성 붕괴(generative collapse)를 완화하고 사용자가 의도한 다중 개념을 정확히 반영하는 이미지 합성을 구현하는 방향으로 나아가야 할 것이다.