ReDiStory: 영역 분리 확산으로 일관된 시각 스토리 생성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ReDiStory는 훈련 없이 텍스트 임베딩을 재구성해 정체성(주인공)과 프레임별 설명을 분리하고, 프레임 간 공유 방향을 억제함으로써 다중 이미지 스토리에서 인물·객체 일관성을 크게 향상시킨다. 동일한 Diffusion 백본을 사용하면서도 정체성 유지와 프롬프트 충실도를 동시에 개선한다.

상세 분석

본 논문은 시각 스토리텔링에서 가장 흔히 발생하는 ‘정체성 드리프트(identity drift)’ 문제를 텍스트 임베딩 수준에서 해결한다는 점에서 혁신적이다. 기존의 훈련 기반 방법(DreamBooth, Textual Inversion 등)은 별도의 데이터와 파인튜닝이 필요해 실시간·다중 프레임 생성에 부적합하고, 1Prompt1Story와 같은 훈련‑무료 접근법은 정체성 프롬프트와 프레임 프롬프트를 단순히 연결(concatenation)해 텍스트 인코더에 입력한다. 그러나 이 방식은 프레임 간 임베딩이 서로 상관관계를 형성하면서, 프레임‑특정 의미가 공유된 정체성 토큰을 압도해 결국 이미지 간 외모·속성 변화가 발생한다.

ReDiStory는 이러한 ‘프레임 간 의미 간섭(inter‑frame semantic interference)’을 근본적으로 차단한다. 핵심 아이디어는 (1) 정체성 프롬프트와 각 프레임 프롬프트를 하나의 시퀀스로 인코딩한 뒤, 토큰 레벨에서 정체성 토큰(E_id)과 프레임 토큰(E_fⁿ)을 명시적으로 분리하고, (2) 프레임 토큰 집합 {E_fⁿ}에 대해 서로 공유되는 방향을 프로젝션을 통해 제거한다. 구체적으로, 각 프레임 n에 대해 ˜E_fⁿ = E_fⁿ − (1/(N−1)) Σ_{m≠n} Proj_{E_f^m}(E_fⁿ) 를 수행한다. 여기서 Proj은 E_f^m이 정의하는 서브스페이스에 대한 정사영을 의미한다. 이 연산은 프레임별 고유 정보를 보존하면서, 다른 프레임에 존재하는 공통 성분을 억제한다. 이후 ˜Eⁿ =

ReDiStory: 영역 분리 확산으로 일관된 시각 스토리 생성

초록

상세 분석

댓글 및 학술 토론

의견 남기기