이미지로 떠올리는 의미 유사도
초록
본 논문은 텍스트‑조건부 확산 모델이 생성하는 이미지 분포를 이용해 두 텍스트 표현 간의 의미적 유사도를 정의한다. 역시간 확산 SDE를 기반으로 Jeffreys divergence를 계산하고, Monte‑Carlo 샘플링으로 실현한다. 실험 결과는 인간 주관 평가와 높은 상관성을 보이며, 기존 언어 기반 메트릭보다 시각적 해석 가능성을 제공한다.
상세 분석
이 연구는 의미 유사도를 “이미지로 떠올리는(conjure)” 관점에서 재정의한다는 점에서 혁신적이다. 기존의 의미 공간은 주로 텍스트 코퍼스 내 단어 동시출현이나 대형 언어 모델(LM)의 출력 분포를 이용해 구축되었으며, 이러한 접근은 인간이 직접 평가하기에 적합하지만 모델 내부 표현을 직관적으로 해석하기는 어렵다. 저자들은 텍스트‑조건부 확산 모델을 활용해, 주어진 프롬프트가 실제로 어떤 이미지 분포를 생성하는지를 관찰함으로써 의미를 시각적으로 구체화한다. 핵심 기술은 두 프롬프트가 유도하는 역시간 확산 SDE 사이의 Jeffreys divergence를 정의하고, 이를 Monte‑Carlo 방식으로 근사하는 것이다.
수학적으로, 텍스트 y에 조건화된 점수 함수 sθ(x,t|y)를 이용해 역시간 SDE를 μθ(x,t,y)dt+g(t)d\bar w_t 형태로 표현한다. 두 프롬프트 y₁, y₂에 대해 각각 μ₁, μ₂를 얻고, Girsanov 정리를 적용해 KL divergence를 드러낸 뒤, 대칭화하여 Jeffreys divergence를 도출한다. 여기서 중요한 점은 기대값이 점수 함수 차이의 L2 노름에 비례한다는 사실이다. 따라서 실제 구현에서는 초기 노이즈를 샘플링하고, 두 프롬프트로 각각 디노이징하면서 각 타임스텝 t에서 sθ(x_t,t|y₁)와 sθ(x_t,t|y₂)의 차이를 제곱해 평균하면 된다.
알고리즘 1은 이 과정을 구체화한다. T=10이라는 비교적 작은 타임스텝을 선택해 계산 비용을 제한했으며, Stable Diffusion v1.4와 classifier‑free guidance를 사용해 실험을 수행했다. 실험에서는 인간이 부여한 의미 유사도 점수와의 Pearson/Spearman 상관관계를 측정했으며, 기존 CLIP‑score 기반 방법과 비교해 동등하거나 더 높은 성능을 보였다. 또한, “Snow Leopard”와 “Bengal Tiger” 같은 사례에서 이미지 변환 과정을 시각화함으로써 두 프롬프트 사이의 의미 차이를 직관적으로 이해할 수 있었다.
이 접근법의 장점은 두 가지이다. 첫째, 의미 유사도 점수가 단순한 숫자가 아니라, 실제 이미지 변환 과정을 통해 시각적 설명을 제공한다는 점이다. 이는 모델이 학습한 의미 구조를 인간이 직관적으로 파악하는 데 큰 도움이 된다. 둘째, 확산 모델 자체의 학습 목표와 일관된 거리 측정법을 사용함으로써, 모델 내부 표현과 외부 인간 평가 사이의 정렬(alignment)을 직접적으로 검증할 수 있다.
한계점도 존재한다. 현재 방법은 텍스트‑조건부 확산 모델에만 적용 가능하며, 프롬프트가 생성하는 이미지가 다중 의미를 포함할 경우 단일 분포로 축소되는 손실이 발생한다. 또한 Monte‑Carlo 샘플링 비용이 높아 대규모 평가에는 효율적인 근사 기법이 필요하다. 향후 연구에서는 다양한 생성 모델(예: VAE‑GAN, 텍스트‑투‑비디오)로 확장하고, 샘플링 효율성을 개선하는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기