교육용 영상 자동생성을 위한 LLM 기반 다중 에이전트 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 교육용 문제 풀이 영상을 고품질로 자동 생성하기 위해, 중앙 오케스트레이션 에이전트가 솔루션, 일러스트레이션, 내레이션 에이전트를 협업시키는 계층형 LLM 기반 다중 에이전트 프레임워크(LAVES)를 제안한다. 영상은 픽셀 직접 합성 대신 실행 가능한 스크립트(EVS) 형태로 생성되어, 코드 기반 시각화와 텍스트‑음성 동기화를 통해 논리적 정확성과 비용 효율성을 동시에 달성한다.

상세 분석

LAVES는 교육 영상 제작이라는 특수 목적에 맞춰 기존 텍스트‑투‑비디오 모델이 갖는 “픽셀‑공간 확률 예측”의 한계를 구조적 스크립트 생성으로 전환한다. 핵심 아이디어는 영상 콘텐츠를 (P, N, A) 삼중구조의 실행 가능한 비디오 스크립트(EVS)로 정의하고, 이를 deterministic하게 컴파일하는 것이다. 여기서 P는 문제 서술, 단계별 풀이, 수식·도형 정의 등 교육적 핵심 내용, N은 각 단계에 대응하는 내레이션 텍스트, A는 시각·음성 동기화를 위한 시간·스타일 규칙을 포함한다.

시스템은 중앙 Orchestrating Agent가 교육 문제 Q를 분석해 전역 상태와 정렬 규칙 A를 생성하고, 세 개의 전문 에이전트에게 작업을 분배한다. Solution Agent는 LLM을 활용해 수학·과학 문제에 대한 논리적 풀이와 텍스트 기반 P를 산출한다. Illustration Agent는 동일 LLM이 생성한 파이썬·Manim 코드 형태의 시각화 스크립트를 출력하며, 이는 실제 렌더링 엔진을 통해 정확한 도형·수식 애니메이션으로 변환된다. Narration Agent는 풀이 흐름에 맞춰 학습자 친화적인 설명문을 작성하고, TTS 모듈을 통해 음성으로 변환한다.

각 에이전트의 출력은 세 단계의 검증 파이프라인을 통과한다. ① 의미론적 비평: 교육적 정확성, 용어 일관성 등을 체크하는 LLM 기반 평가; ② 규칙 기반 제약: 코드 사용 제한, 키워드 매칭, 포맷 규칙 등을 검증; ③ 도구 기반 실행 검사: 실제 코드 컴파일·렌더링, TTS 합성 성공 여부를 확인한다. 위 검증에서 오류가 발견되면 상세 피드백이 에이전트에 반환되어 반복적으로 수정·재생산한다. 이러한 iterative critique‑revision 루프는 최종 EVS가 모든 제약을 만족하도록 보장한다.

렌더링 단계에서는 Render_vis가 P와 A를 해석해 프레임 단위 시각 스트림을 생성하고, Synth_audio가 N을 음성으로 변환한다. 두 스트림은 A에 정의된 시간 매핑에 따라 정확히 동기화되어 최종 영상 V를 만든다. 이 방식은 픽셀‑레벨 확률 모델이 겪는 수식 왜곡·논리 비연속 문제를 근본적으로 회피한다.

실험에서는 대규모 배치(일일 백만 영상) 생산을 시뮬레이션했으며, 기존 산업 표준 대비 95 % 이상의 비용 절감과 높은 품질 수용률을 보고한다. 또한, 코드 기반 시각화 덕분에 수학·과학 도메인에서 요구되는 기호 정확도가 크게 향상되었다.

LAVES는 교육용 영상 생성에 필요한 논리·시각·음성의 삼중 일관성을 계층형 에이전트 협업과 정형화된 스크립트 컴파일이라는 두 축으로 해결함으로써, 기존 엔드‑투‑엔드 비디오 모델이 제공하지 못한 제어성, 확장성, 비용 효율성을 동시에 달성한다.

교육용 영상 자동생성을 위한 LLM 기반 다중 에이전트 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기