텍스트‑이미지 생성의 다양성을 기하학적으로 확장하는 GASS 방법
초록
GASS는 CLIP 임베딩 구면 위에서 텍스트와 정교히 직교하는 두 축을 정의해, 프롬프트‑종속·비종속 변이를 각각 측정·확장한다. 이를 통해 샘플링 단계에서 이미지 임베딩의 투사 폭을 의도적으로 넓혀, 다양성을 높이면서도 의미 일치와 화질을 유지한다.
상세 분석
본 논문은 텍스트‑투‑이미지(T2I) 모델이 동일 프롬프트에 대해 생성하는 이미지들의 다양성이 제한적이라는 문제를 기하학적 관점에서 접근한다. 기존 연구들은 주로 엔트로피 기반의 배치 내 샘플 간 거리 확대에 초점을 맞추었으나, 프롬프트에 의해 제약되는 의미적 변이와 제약되지 않는 배경·스타일 등 비의미적 변이를 구분하지 못한다. GASS는 이러한 한계를 극복하기 위해 CLIP 이미지‑텍스트 임베딩을 단위 구면 (S^{d-1}) 에 정규화하고, 텍스트 임베딩 (e_t) 을 첫 번째 기저벡터로 고정한다. 이후 배치 내 이미지 임베딩을 (e_i = (e_i^\top e_t) e_t + \sum_{k=2}^d (e_i^\top u_k) u_k) 와 같이 직교 분해한다. 여기서 (u_{ind}) 는 텍스트와 직교하면서 배치 전체의 잔차 분산을 최대화하는 주축으로, 무작위 후보 (r_k) 들을 Gram‑Schmidt로 생성한 뒤 평균 절대 투사값을 평가해 선택한다(알고리즘 1).
다양성 측정은 두 축에 대한 투사값의 스프레드(표준편차 혹은 평균 절대 편차)를 합산한 (D_{dep}+D_{ind}) 으로 정의한다. 실험에서는 ImageNet과 DrawBench에서 실제 이미지 배치와 합성 배치를 비교해, GASS가 기존 엔트로피 기반 방법보다 두 축 모두에서 스프레드를 크게 늘리는 것을 확인한다.
샘플링 단계에서는 미분 가능한 CLIP 이미지 인코더를 이용해 현재 샘플의 임베딩을 목표 스프레드 방향으로 그래디언트 상승시킨다. 구체적으로, 각 타임스텝 (t) 에서 생성된 이미지 (x_t) 에 대해 (\nabla_{x_t} \big( \lambda_{dep} \cdot \text{Spread}{e_t}(P) + \lambda{ind} \cdot \text{Spread}{u{ind}}(P) \big)) 를 계산하고, 이를 기존 디퓨전/플로우 샘플링 업데이트에 더한다. 이렇게 하면 생성 궤적이 구면상에서 두 축을 골고루 탐색하도록 강제되며, 프롬프트‑종속 내용(예: 객체 각도)과 프롬프트‑비종속 배경·조명·스타일이 동시에 다양해진다.
다양성 향상에도 불구하고 이미지 품질(FID, CLIPScore)과 의미 일치도는 크게 저하되지 않는다. 이는 GASS가 단순히 무작위 노이즈를 추가하는 것이 아니라, 의미 공간에서 구조화된 방향성을 부여함으로써 “의미적 일관성 유지 + 다양성 확대”라는 트레이드오프를 효율적으로 관리하기 때문이다. 또한, GASS는 사전 훈련된 백본(U‑Net, DiT)과 디퓨전·플로우 두 가지 생성 파라다임 모두에 적용 가능하도록 설계돼, 모델‑불변성(invariance)을 보인다.
핵심 기여는 다음과 같다. ① CLIP 구면을 이용해 프롬프트‑종속·비종속 변이를 명확히 구분·정량화하는 기하학적 프레임워크 제시. ② 식별된 두 축의 스프레드를 의도적으로 확장하는 샘플링 가이드라인(GASS) 개발. ③ 다양한 백본·파라다임·벤치마크에서 기존 최첨단 방법 대비 더 높은 다양성(특히 배경·스타일 다양성)과 경쟁력 있는 화질·정합성을 입증.
이러한 접근은 향후 텍스트‑이미지 생성에서 “다양성 제어”를 보다 세밀하게 다룰 수 있는 기반을 제공한다. 예를 들어, 사용자가 특정 축만 강화하거나 억제하도록 가중치 (\lambda_{dep}, \lambda_{ind}) 을 조정함으로써 맞춤형 창작 흐름을 구현할 수 있다. 또한, 동일한 기하학적 분해를 다른 멀티모달 모델(예: 텍스트‑비디오, 텍스트‑오디오)에도 확장하면, 다양한 생성 도메인에서 편향 완화와 창의성 증진에 기여할 가능성이 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기