역할극 에이전트를 위한 동적 컨텍스트 적응과 검색 기반 생성

역할극 에이전트를 위한 동적 컨텍스트 적응과 검색 기반 생성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 캐릭터 별 지식이 제한된 상황에서도 일관된 역할극 응답을 생성하도록 설계된 훈련‑무료 프레임워크 Amadeus와, 15개의 허구 캐릭터에 대한 976 K자 분량의 페르소나 문서와 450개의 QA를 포함한 평가용 데이터셋 CharacterRAG를 제시한다. Amadeus는 적응형 텍스트 분할(ACTS), 가이드 선택(GS), 속성 추출(AE) 세 단계로 구성돼, 관련 청크를 효율적으로 선택하고 성격·신념·심리적 특성을 추출해 RAG 기반 역할극 에이전트의 일관성과 사실성을 크게 향상시킨다. 실험 결과, 기존 RAG 베이스라인 대비 hallucination 감소와 MBTI·BFI 질문에 대한 인격 일관성 점수가 현저히 개선되었다.

상세 분석

Amadeus는 “훈련‑무료”라는 핵심 전제를 바탕으로, 사전 파인튜닝 없이도 대규모 언어 모델(LLM)과 외부 검색 엔진을 결합해 캐릭터 일관성을 확보한다는 점에서 혁신적이다. 첫 번째 단계인 Adaptive Context‑aware Text Splitter(ACTS)는 기존의 고정 길이 청크화 방식과 달리, 페르소나 문서의 최대 문단 길이(l_max)를 계산하고 절반 길이(l_o)만큼 겹치는 슬라이딩 윈도우를 적용한다. 이때 각 청크에 해당 문단이 속한 계층적 헤더(H)를 붙여 “문맥‑연속성”을 보존한다. O(N) 복잡도로 구현돼 대규모 페르소나에도 효율적이며, 특히 캐릭터의 배경 스토리와 행동 기록이 여러 레벨에 걸쳐 분산된 경우 정보를 손실 없이 유지한다는 장점이 있다.

두 번째 단계인 Guided Selection(GS)은 단순한 유사도 기반 상위 K 청크 선택을 넘어, LLM을 활용해 각 청크가 질문에 대한 “추론 가능성”을 판단한다. 즉, 명시적 지식이 없더라도 행동·대사·상황 서술을 통해 성격·신념 등을 유추할 수 있는지를 검증한다. 청크 슬롯이 가득 찰 때까지 반복 선택하고, 최악의 경우에는 유사도 상위 K 청크를 반환한다. 이 과정은 알고리즘 1에 명시된 대로 순차적 탐색과 LLM‑판단을 결합해, 기존 RAG가 흔히 겪는 “관련 없는 청크 과다 사용” 문제를 완화한다.

세 번째 단계인 Attribute Extractor(AE)는 선택된 청크에서 Belief·Value와 Psychological Traits 두 가지 속성을 자동 추출한다. 추출된 속성은 최종 프롬프트에 명시적으로 삽입돼, LLM이 답변을 생성할 때 캐릭터의 내적 가치관과 성격 특성을 반영하도록 유도한다. 이는 특히 질문이 캐릭터의 명시적 지식 범위를 벗어날 때, “인격 일관성”을 유지하면서도 합리적인 추론을 가능하게 만든다.

데이터 측면에서 저자들은 CharacterRAG라는 새로운 벤치마크를 구축했다. 15개의 유명 허구 캐릭터(예: 탄지로, 메구민 등)를 대상으로, 각 캐릭터의 활동, 신념·가치, 인구통계, 심리적 특성, 기술·전문성, 사회적 관계 등 6가지 속성을 체계화한 페르소나 문서를 수집·정제하였다. 총 976 K자(≈1 백만 문자)의 텍스트와 450개의 질문‑답변 쌍을 제공함으로써, RAG 기반 역할극 에이전트의 성능을 다각도로 평가할 수 있는 기반을 마련했다.

실험에서는 Naïve RAG, CRA G, Raptor, Adaptive RAG, LightRAG 등 5가지 최신 RAG 베이스라인과 GPT‑4.1, Gemma‑3‑27B, Qwen‑3‑32B 등 세 종류의 LLM을 조합해 비교하였다. 평가 지표는 정답 일치율, hallucination 비율, 그리고 MBTI·BFI 설문을 통한 인격 일관성 점수다. Amadeus는 모든 베이스라인 대비 hallucination을 평균 30 % 이상 감소시켰으며, MBTI 질문에 대한 성격 일관성 점수는 0.68→0.84(약 24 % 상승)로 크게 개선되었다. 특히 질문이 캐릭터의 명시적 지식 범위를 초과할 때, AE가 제공하는 심리·가치 속성이 답변의 자연스러움과 일관성을 유지하는 핵심 요인으로 작용했다.

한계점으로는 현재 한국어 위키 기반 페르소나에 국한돼 있어, 문화·언어가 다른 캐릭터에 대한 일반화가 검증되지 않았으며, GS 단계에서 LLM 호출 비용이 증가한다는 점을 들 수 있다. 향후 연구에서는 멀티모달 정보(이미지·음성)와 실시간 사용자 피드백을 활용한 동적 속성 업데이트, 그리고 비용 효율적인 라우팅 메커니즘을 탐색할 여지가 있다.

요약하면, Amadeus는 텍스트 분할, 청크 선택, 속성 추출이라는 세 단계 파이프라인을 통해 RAG 기반 역할극 에이전트가 “지식 부족 → 추론 → 일관된 인격 표현”이라는 흐름을 자연스럽게 수행하도록 설계되었으며, CharacterRAG 데이터셋을 통해 그 효과를 체계적으로 검증하였다.


댓글 및 학술 토론

Loading comments...

의견 남기기