텍스트‑이미지 변환기에서 컨텍스추얼 공간 반발을 통한 다양성 향상

현대 텍스트‑투‑이미지(T2I) 디퓨전 모델은 프롬프트와의 정밀한 의미 정렬을 달성했지만, 동일 프롬프트에 대해 제한된 시각적 해답만을 제공하는 전형성 편향에 시달린다. 이 문제는 창의적 활용에서 다양성이 핵심 요구사항이 되는 상황에서 큰 장애가 된다. 기존 연구는 크게 두 축으로 나뉜다. 첫 번째는 초기 노이즈나 프롬프트 임베딩을 변형하는 업스트림 방식으로, 구조적 피드백이 부족해 다양성을 확보하려면 비용이 많이 드는 최적화가 필요하다. 두 번째는 디노이징 과정 중 이미지 라틴트에 직접 반발을 가하는 다운스트림 방식으로, 시각적 구조가 이미 고정된 뒤에 작동해 데이터 매니폴드를 벗어나 아티팩트를 초래한다. 이 논문은 이러한 딜레마를 해결하기 위해 Diffusion Transformer(DiT) 내부의 멀티모달 어텐션 블록에서 생성되는 ‘컨텍스추얼 공간’을 활용한다. DiT는 텍스트와 이미지 토큰을 동시에 처리하며, 각 블록 l에서 텍스트 토큰 f_T와 이미지 토큰 f_I가 MM‑Attn을 통해 상호작용한다. 이 과정에서 텍스트 토큰은 이미지 토큰으로부터 현재 시각적 구성을 지속적으로 받아들여, 프롬프트 의미와 이미지 구조가 결합된 풍부한 표현 ˆf_T(l)으로 변환된다. 저자들은 이 ˆf_T(l)를 컨텍스추얼 공간의 핵심 요소로 정의하고, 토큰 순서가 의미적으로 고정돼 있어 배치 내 샘플 간 비교가 용이하다고 강조한다. 구체적인 방법은 배치 B개의 샘플을 입자 집합으로 보고, 각 어텐션 블록 내부에서 토큰에 반발(repulsion) 신호를 주입하는 것이다. 이를 위해 von Neumann 엔트로피 기반의 다양성 손실 L_div를 사용한다. 각 샘플 i의 컨텍스추얼 토큰을 평탄화해 벡터 c_i로 만든 뒤, 코사인 유사도로 구성된 커널 행렬 K를 만든다. 정규화된 K의 고유값 λ_k에 대해 −∑λ_k log λ_k를 손실로 정의하고, 토큰에 대한 그래디언트를 계산해 η ∇L_div 만큼 업데이트한다. 이 연산은 모델 파라미터에 대한 역전파를 필요로 하지 않으며, 각 블록마다 M번의 간단한 내부 반복만 수행한다. 시간적 측면에서 저자들은 초기 몇 타임스텝(예: t ∈

텍스트‑이미지 변환기에서 컨텍스추얼 공간 반발을 통한 다양성 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기