카하니 다중모달 공동창작 스토리텔링 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

카하니는 대형 언어 모델, 텍스트‑음성, 텍스트‑음악, 텍스트‑비디오 생성 기술을 결합해 아이와 협업으로 이야기를 만들도록 설계된 교육용 멀티모달 플랫폼이다. 프레이타그 피라미드와 프로프 서사 기능을 구조적 틀로 활용해 영어 학습, 도덕 교육, 서사 구조 이해를 목표로 하며, 각 모듈별 평가와 3가족(부모‑자녀) 사용자 연구 결과를 제시한다.

상세 분석

본 논문은 어린이 대상 교육용 스토리텔링 시스템을 설계·구현하고, 그 효과를 다각도로 검증한 점에서 의미가 크다. 첫째, 서사 구조를 프레이타그 피라미드와 프로프의 31가지 서사 기능으로 명시적으로 모델링한 점은 기존 LLM 기반 이야기 생성이 흔히 겪는 플롯 일관성 부족 문제를 구조적으로 보완한다는 점에서 혁신적이다. 아이는 각 단계마다 카드 형태의 프로프 기능을 선택하고 질문에 답함으로써 스토리의 골격을 직접 설계하고, 시스템은 이를 바탕으로 LLM이 텍스트를 생성한다. 이렇게 인간‑기계 협업을 단계별로 구분함으로써 아이의 창의적 참여를 촉진하고, 동시에 자동화된 품질 검증(리뷰어 LLM)으로 아동 적합성을 확보한다.

둘째, 멀티모달 확장은 텍스트, 음성, 음악, 영상 네 가지 모달을 모두 제공한다. 텍스트‑음성(TTS)에서는 XTTS‑v2와 StyleTTS2를 비교 평가했으며, 명료성·억양·감정 전달 등 네 가지 기준에서 인간 평가자를 활용해 객관적 품질을 측정했다. 텍스트‑음악(TTM)에서는 음악 감독 LLM이 감정 톤을 파악해 가이드라인을 생성하고, 이를 기반으로 음악 생성 모델이 배경음악을 만든다. 텍스트‑비디오(TTV)에서는 CogVideoX‑5b를 이용해 장면 가이드를 시각화했으며, 자연스러움·시간적 연속성·세부 정렬·아동 친화성 등을 평가 지표로 설정했다. 이러한 다중 모달 파이프라인은 학습 스타일이 다양한 아동에게 시청각·청각·음악적 자극을 동시에 제공해 몰입도와 기억 유지에 긍정적 영향을 미친다.

셋째, 모델 선택에 대한 실험적 근거가 충실하다. 스토리 생성 LLM은 Gemma‑2‑9b, Gemma‑2‑27b, Llama‑3.1‑8b, Llama‑3.1‑70b, GPT‑4o, GPT‑4o‑mini 등 여섯 모델을 인간 평가(문법, 언어 일관성, 적절성, 구조 일관성, 창의성, 지시 준수, 자연스러움)로 비교했다. 결과는 파라미터 규모가 반드시 성능을 보장하지 않으며, 작은 모델이 창의적 텍스트 생성에 유리할 수 있음을 보여준다. 특히 Gemma‑2‑9b가 전반적으로 가장 높은 승률과 Bradley‑Terry 점수를 기록했다.

넷째, 콘텐츠 검증을 위한 별도 LLM 기반 리뷰어와 100개의 적절·부적절 스토리 데이터셋을 활용한 평가가 포함돼 있다. 이는 아동에게 부적절한 내용이 노출되는 위험을 최소화하려는 실용적 접근이다.

마지막으로, 실제 사용자 연구는 부모‑자녀 3쌍을 대상으로 설계·사용성·교육 효과를 설문 조사했으며, 아이와 부모 모두 높은 만족도와 학습 동기 향상을 보고했다. 다만 샘플 수가 적어 통계적 일반화에는 한계가 있으며, 장기 학습 효과 검증이 추가로 필요하다.

전반적으로 카하니는 서사 이론과 최신 생성 AI를 결합해 교육적 멀티모달 스토리텔링을 구현한 사례로, 모델 선택, 품질 평가, 사용자 협업 설계 등 실증적 방법론을 제시함으로써 향후 아동용 AI 교육 콘텐츠 개발에 중요한 참고 모델이 될 것이다.

카하니 다중모달 공동창작 스토리텔링 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기