스토리북 일관성 혁신을 위한 에이전트 기반 명시적 스토리 상태 관리
초록
StoryState는 텍스트‑투‑이미지 모델을 그대로 사용하면서, 캐릭터 시트·전역 설정·페이지별 제약을 포함한 명시적 스토리 상태를 JSON 형태로 유지한다. 소규모 LLM 에이전트들이 이 상태를 읽고 쓰며 1Prompt1Story 스타일의 프롬프트를 생성·편집하고, 일관성 비평가가 결과를 검증한다. 실험 결과, 페이지별 국소 편집 시 다른 페이지에 영향을 최소화하고, 시각적 일관성 점수와 사용자 편의성 모두 기존 1Prompt1Story보다 우수함을 보였다.
상세 분석
StoryState는 기존 “one‑click” 스토리북 생성 시스템이 가지고 있던 ‘스토리 상태가 모델 내부에 암묵적으로 존재한다’는 한계를 명시적 데이터 구조로 전환한다는 점에서 혁신적이다. 구체적으로 스토리는 세 부분(C, W, {Sᵢ})으로 나뉘며, C는 캐릭터 이름·역할·시각적 속성·참조 이미지 등을 포함한 캐릭터 시트, W는 전역 스타일·톤·반복 배경·소품 등 세계 설정, Sᵢ는 각 페이지의 장면 설명·등장 인물·시각적 제약·텍스트·이미지 포인터를 담는다. 이러한 JSON‑like 구조는 LLM 에이전트가 읽고 수정하기에 최적화돼, 편집 요청이 들어오면 최소한의 서브셋만 업데이트한다.
플래너 에이전트는 초기 사용자 프롬프트를 페이지‑레벨 아웃라인으로 분해하고, 스테이트 매니저는 중복·모호한 캐릭터 언급을 통합해 일관된 시각적 속성을 C에 저장한다. 텍스트 에이전트는 각 페이지 Sᵢ와 전역 C·W를 조건으로 하여 내러션을 생성하고, 프롬프트 라이터는 전체 상태를 기반으로 전역 아이덴티티 프롬프트 P₀와 페이지별 프롬프트 Pᵢ를 만든다. 여기서 사용된 1Prompt1Story‑style T2I 백엔드는 싱글턴 아이덴티티 프롬프트와 페이지 프롬프트를 분리함으로써, 동일 캐릭터가 여러 페이지에 걸쳐 일관된 외모를 유지하도록 돕는다.
편집 단계에서는 스테이트 매니저가 Sⱼ에 새로운 제약을 삽입하거나 C를 수정하면, 프롬프트 라이터는 해당 페이지 프롬프트만 재생성하고, 나머지 P₀·Pᵢ는 그대로 유지한다. 따라서 불필요한 전역 재생성을 방지하고, 페이지당 평균 변경 수가 크게 감소한다. 일관성 비평가 에이전트는 멀티모달 CLIP 기반 유사도와 규칙 기반 검사를 결합해, 생성된 이미지·텍스트가 현재 스토리 상태와 부합하는지 자동 검증한다. 불일치가 발견되면 구조화된 피드백을 반환해, 스테이트를 미세 조정하고 재생성 루프를 한 번 더 수행한다.
실험에서는 192개의 10페이지 스토리북을 구축하고, 각 스토리마다 여러 페이지‑레벨 편집 요청을 만든다. 평가 지표는 (1) 시각적 일관성(인접 페이지 CLIP 코사인 유사도), (2) 편집 후 변경된 페이지 수, (3) 사용자 인터랙션 턴 및 시간이다. StoryState는 1Prompt1Story 대비 일관성 0.83 vs 0.78, 페이지 변경 1.6 vs 4.5, 턴 3.1 vs 4.3, 시간 74 s vs 96 s로 전반적인 효율성을 크게 향상시켰다. 사용자 연구(100명)에서도 일관성 선호도가 36%로 Gemini(34%)보다 높았으며, 편집 제어성에서는 48%로 가장 높은 선호도를 기록했다.
핵심 인사이트는 (①) 명시적 스토리 상태가 모델‑프리 환경에서도 강력한 일관성 제어를 가능하게 함, (②) 소규모 LLM 에이전트와 구조화된 프롬프트 설계만으로도 다양한 백엔드(T2I, 텍스트)와 호환 가능한 시스템을 구현할 수 있음, (③) 자동 일관성 검증 루프가 인간‑인-더‑루프 비용을 크게 낮추어, 비전문가도 직관적으로 스토리를 수정할 수 있게 만든다.
댓글 및 학술 토론
Loading comments...
의견 남기기