대화 모델 최적화를 위한 에이전트 게임과 적응형 트리 기반 GRPO
초록
본 논문은 사전 사용자 데이터에 의존하지 않는 온라인 개인화와 장기 보상을 동시에 달성하기 위해, 사용자 에이전트와 대화 에이전트가 상호 작용하는 게임 구조를 도입한다. 사용자 에이전트는 스타일 모방과 종료 확률 예측을 통해 동적 환경을 생성하고, 대화 에이전트는 새로운 Adaptive Tree‑based Group Relative Policy Optimization(AT‑GRPO) 알고리즘으로 트리형 롤아웃을 효율적으로 관리하면서 장기 가치를 학습한다. 실험 결과, 기존 PPO·GRPO 기반 방법보다 샘플 효율성과 대화 지속성에서 현저히 우수함을 보였다.
상세 분석
이 연구는 기존 오픈‑도메인 대화 시스템이 안고 있는 두 가지 근본적인 한계—사전 수집된 사용자 데이터에 대한 과도한 의존과, 강화학습(RL)에서 흔히 발생하는 단기 보상 편향—를 동시에 해결하고자 한다. 이를 위해 저자는 두 에이전트가 교대로 행동하는 ‘에이전트 게임’ 프레임워크를 설계하였다. 사용자 에이전트는 (1) 스타일 모방 메커니즘을 통해 실제 사용자와 유사한 대화 스타일을 학습하고, (2) 턴‑레벨 종료 확률을 실시간으로 예측해 즉시 보상으로 제공한다. 종료 확률 p_i는 1‑p_i 형태의 즉시 보상 r_i 으로 변환되어 대화 에이전트에게 전달되며, 학습이 진행될수록 α 파라미터가 증가해 사용자 에이전트가 점점 더 엄격해지는 ‘동적 임계값 조정’이 이루어진다. 이는 대화 에이전트가 초기에는 탐색적인 발화를 시도하도록 유도하고, 학습이 진행됨에 따라 고품질 응답을 지속적으로 제공하도록 압력을 가한다는 점에서 게임 이론적 균형을 만든다.
핵심 기술인 AT‑GRPO는 기존 TreeRPO가 제시한 전체 트리 확장을 그대로 적용하면 대화 길이 L에 대해 O(W^L) 형태의 지수적 복잡도가 발생한다는 문제점을 인식하고, ‘적응형 관찰 범위’를 도입한다. 구체적으로, 각 노드 n_{i,j}는 현재 대화 단계에 따라 미리 정의된 범위 w와 l을 사용해 하위 노드 중 일부만을 집계한다. 초기 단계에서는 w와 l을 크게 설정해 장기적인 주제 탐색을 촉진하고, 후기 단계에서는 이를 축소해 유지·세부화에 집중한다. 이렇게 하면 롤아웃 비용이 O(poly(L)) 수준으로 감소하면서도, 하위 노드들의 가중 보상 집계는 여전히 ‘bottom‑up’ 방식으로 수행돼 장기 보상을 효과적으로 전달한다.
또한, 사용자 에이전트의 종료 확률을 명시적 피처로 대화 컨텍스트에 삽입함으로써, 대화 에이전트는 현재 대화 흐름에서 사용자 의도의 변화를 직접 감지한다. 이는 기존 토큰‑레벨 보상 설계가 갖는 ‘보상 해킹’(예: 의미 없는 반복, 대화 길이만 늘리는 전략) 문제를 완화한다.
실험에서는 LCCC, DailyDialog, 그리고 게임 NPC 데이터셋을 활용해 ① 대화 길이, ② 일관성, ③ 사용자 만족도(주관적 평가) 등 다각적인 지표를 측정하였다. 특히 AT‑GRPO 기반 모델은 100번의 학습 스텝만으로도 기존 PPO·GRPO 대비 15~20% 높은 대화 지속 시간과 10% 이상 향상된 일관성을 기록했으며, 샘플 효율성 면에서도 동일한 성능을 달성하기 위해 필요한 데이터 양이 기존 방법의 절반 이하였다.
이 논문의 주요 기여는 (1) 사전 데이터 없이도 온라인으로 사용자 특성을 학습할 수 있는 에이전트 게임 프레임워크, (2) 대화 트리를 효율적으로 관리하면서 장기 보상을 보존하는 AT‑GRPO 알고리즘, (3) 두 요소를 결합한 종합 평가 프로토콜을 제시해 다양한 도메인에서의 적용 가능성을 실증적으로 입증한 점이다. 향후 연구에서는 사용자 에이전트의 멀티‑모달 입력(음성·표정) 통합, 그리고 실제 서비스 환경에서의 실시간 적응성을 검증하는 것이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기