LLM 기반 에이전트 서사 자동 생성 시스템

본 논문은 사용자가 씬에 에이전트와 객체를 배치하면 자동으로 의미 메타데이터를 부여하고, 이를 자연어 프롬프트로 변환해 대형 언어 모델(LLM)에 전달한다. LLM은 행동 시퀀스를 구조화된 문자열로 반환하고, 파서는 이를 해석해 에이전트의 행동, 애니메이션 및 상호작용을 실시간으로 실행한다. 네 가지 경량 LLM을 대상으로 처리 시간과 일관성을 평가한 결과

LLM 기반 에이전트 서사 자동 생성 시스템

초록

본 논문은 사용자가 씬에 에이전트와 객체를 배치하면 자동으로 의미 메타데이터를 부여하고, 이를 자연어 프롬프트로 변환해 대형 언어 모델(LLM)에 전달한다. LLM은 행동 시퀀스를 구조화된 문자열로 반환하고, 파서는 이를 해석해 에이전트의 행동, 애니메이션 및 상호작용을 실시간으로 실행한다. 네 가지 경량 LLM을 대상으로 처리 시간과 일관성을 평가한 결과, LLM이 고수준 씬 설명을 실행 가능한 서사로 변환하는 데 신뢰성을 보였다.

상세 요약

이 연구는 에이전트 기반 가상 환경에서 스토리텔링을 프로토타이핑하기 위한 파이프라인을 제안한다. 핵심은 ‘씬 메타데이터 자동 할당’ 단계이다. 사용자가 드래그‑앤‑드롭으로 배치한 각 엔티티는 고유 식별자(ID), 역할(tag), 가능한 상호작용 리스트(interaction‑type) 등을 포함하는 JSON‑형식 메타데이터를 자동 생성한다. 이러한 구조화된 정보는 인간이 직접 스크립트를 작성할 필요 없이 LLM에게 의미론적 컨텍스트를 제공한다는 점에서 기존 텍스트‑프롬프트 기반 생성 방식보다 높은 정확성을 기대할 수 있다.

프롬프트 설계는 두 부분으로 나뉜다. 첫 번째는 “시나리오 설정”으로, 메타데이터를 자연어 문장으로 서술하고, 두 번째는 “행동 요구”로, “각 에이전트가 언제, 어떤 객체와 어떤 행동을 수행하는가”를 명시한다. 여기서 저자들은 LLM이 일관된 순서를 유지하도록 ‘시간 스탬프’를 명시적으로 포함시켰으며, 반환 형식은 “<시간> : <에이전트> -> <행동>(<대상>)”와 같은 규칙 기반 문자열로 제한하였다. 이러한 형식화는 파싱 오류를 최소화하고, 실시간 시스템에 바로 적용 가능하도록 설계된 점이 특징이다.

파서는 정규표현식과 상태 머신을 결합해 반환 문자열을 구조화된 행동 큐로 변환한다. 각 행동은 애니메이션 모듈, 물리 엔진, 그리고 객체 상태 업데이트와 연결된다. 특히, 동시 다발적인 상호작용을 처리하기 위해 행동 큐는 우선순위와 의존성을 고려한 스케줄러에 의해 관리된다. 이 과정에서 에이전트 간 충돌 방지와 물리적 일관성을 유지하기 위한 보조 검증 로직이 삽입되어, LLM이 생성한 서사가 물리 엔진과 충돌하지 않도록 보장한다.

평가에서는 GPT‑Neo‑125M, LLaMA‑7B, Falcon‑7B, 그리고 Mistral‑7B‑Instruct 등 네 가지 경량 모델을 선정하였다. 복잡도 시나리오를 ‘단순(2명·1객체)’, ‘중간(4명·3객체)’, ‘복잡(8명·5객체)’로 구분하고, 각 모델의 프롬프트 전송‑응답 시간, 파싱 성공률, 행동 일관성(인간 평가자 5점 척도) 등을 측정했다. 결과는 모델 규모와 관계없이 처리 시간은 0.8~2.3초 사이였으며, Mistral‑7B‑Instruct가 가장 높은 일관성(4.7점)과 낮은 오류율(3%)을 보였다. 또한, 복잡도 증가에 따라 응답 시간은 선형적으로 상승했지만, 모든 모델이 실시간 인터랙션 요구를 충족할 수준이었다.

한계점으로는 LLM이 생성하는 행동이 사전 정의된 메타데이터 범위에 국한된다는 점, 그리고 프롬프트 길이가 늘어날 경우 토큰 제한에 부딪히는 문제가 있다. 향후 연구에서는 메타데이터 자동 확장, 다중 라운드 대화형 프롬프트, 그리고 강화학습을 통한 행동 최적화를 모색한다. 전체적으로 본 시스템은 스토리보드 단계에서 프로그래밍 없이도 동적인 에이전트 서사를 빠르게 구현할 수 있는 실용적인 도구임을 입증한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...