그람슈미트 기반 프레임 간 의미 간섭 차단 스토리텔링
초록
DeCorStory는 텍스트‑투‑이미지 스토리텔링에서 프레임 간 시각·의미 일관성을 유지하기 위해, 프롬프트 임베딩을 그람‑슈미트 정규 직교화하고 특이값 재가중(SVR) 및 정체성 보존 교차‑어텐션(IPCA)을 결합한 훈련‑프리 파이프라인이다. 모델 자체를 수정하거나 재학습할 필요 없이 기존 Diffusion 모델에 바로 적용할 수 있으며, 실험에서 CLIP‑T, CLIP‑I, DreamSim 등 주요 지표에서 기존 훈련‑프리 방법들을 크게 앞선다.
상세 분석
DeCorStory는 텍스트‑투‑이미지(storytelling) 작업에서 가장 흔히 발생하는 “프레임 간 의미 누수” 문제를 근본적으로 해결하고자 한다. 기존의 One‑Prompt‑One‑Story 방식은 모든 프레임 프롬프트를 하나의 긴 시퀀스로 연결하지만, 동일 인물·대상에 대한 여러 설명이 동일 텍스트 인코더에 의해 동시에 처리되면서 임베딩 간 상관관계가 높아진다. 이 상관관계는 diffusion 과정에서 서로 다른 프레임의 색상·배경·소품이 섞이는 색상 누수(color leakage)와 정체성 드리프트(identity drift)를 야기한다.
DeCorStory는 이러한 현상을 세 단계로 차단한다. 첫째, 프레임별 임베딩 행렬 X에 대해 행‑단위 그람‑슈미트 정규 직교화(Gram‑Schmidt Orthogonalization)를 수행한다. 이 과정은 각 프레임 임베딩을 서로 직교하도록 회전시켜, 의미 공간에서의 중복을 최소화한다. 중요한 점은 정체성 프롬프트 P₀와 특수 토큰(
댓글 및 학술 토론
Loading comments...
의견 남기기