다중턴·다중에이전트 자기대결 강화학습으로 사회적 대화 지능을 키우는 OMAR
초록
OMAR(One Model, All Roles)은 하나의 언어 모델이 대화에 참여하는 모든 역할을 동시에 수행하도록 설계된 강화학습 프레임워크이다. 다중턴·다중에이전트 자기대결(self‑play) 환경에서 에피소드 종료 시점에 부여되는 보상을 이용해, 토큰‑레벨과 턴‑레벨의 계층적 어드밴티지 추정을 적용한다. 실험은 사회적 상호작용 시뮬레이터 SOTOPIA와 전략 게임 Werewolf에서 수행했으며, 모델이 공감, 설득, 타협 등 인간 수준의 사회적 행동을 스스로 학습함을 보여준다.
상세 분석
본 논문은 기존 LLM 강화학습이 단일턴, 단일에이전트 최적화에 머무는 한계를 지적하고, 대화라는 고차원·고불확실성 환경을 다루기 위해 ‘하나의 모델이 모든 역할을 동시에 연기한다’는 전혀 새로운 패러다임을 제시한다. 핵심 아이디어는 GRPO에서 독립적인 n개의 롤아웃을 ‘n명의 대화 참여자’로 재해석하고, 각 턴마다 동일 모델이 n개의 프롬프트(각 역할에 대한 persona)와 현재 대화 히스토리를 입력받아 n개의 발화를 동시 생성한다. 이렇게 하면 배치 크기가 참여자 수와 일치하므로, 모델이 자기 자신과 경쟁·협력하면서 전략을 탐색한다는 점에서 AlphaGo와 유사하지만, 언어 토큰이라는 거대한 행동 공간을 다루는 것이 차별점이다.
학습 안정성을 위해 제안된 ‘계층적 어드밴티지 추정(Hierarchical Advantage Estimation)’은 두 단계로 구성된다. 첫 번째 단계에서는 각 턴을 하나의 마코프 단계로 보고, 해당 턴의 마지막 토큰 값을 사용해 GAE 기반의 턴‑레벨 어드밴티지를 계산한다. 두 번째 단계에서는 이 턴‑레벨 어드밴티지를 해당 턴의 ‘가짜 보상(pseudo‑reward)’으로 간주하고, 토큰‑레벨 가치와 결합해 토큰‑레벨 어드밴티지를 다시 추정한다. 이렇게 하면 장기 대화에서 발생하는 고분산 보상 전파 문제를 완화하고, PPO 기반 정책 업데이트가 보다 안정적으로 진행된다.
실험 설계는 두 가지 축을 중심으로 한다. 첫째, SOTOPIA 환경에서 두 명이 서로 상반된 목표(예: 판매자 vs 구매자)를 갖는 협상 시나리오를 사용해, 목표 달성도, 신뢰성, 규칙 준수 등 7가지 정량적 지표를 LLM‑as‑Judge(GPT‑5‑Chat)로 평가한다. 둘째, Werewolf와 같은 제로섬 전략 게임에서 협력·배신 행동을 학습한다. 비교 대상은 (1) 기본 Qwen‑2.5‑7B 모델, (2) 기존 SOTOPIA‑RL 방식(utterance‑level reward model)이다. 결과는 OMAR가 모든 평가지표에서 일관적으로 우수함을 보여준다. 특히, 토큰‑레벨 보상만을 사용한 기존 방법에 비해 ‘사회적 규칙 준수’와 ‘관계 형성’ 점수가 크게 향상돼, 장기적인 사회적 목표를 직접 최적화할 수 있음을 증명한다.
또한 논문은 보상 해킹(reward hacking) 문제를 인지하고, 턴‑레벨 품질 필터링을 통해 비정상적인 발화를 사전에 차단하는 방안을 제안한다. 이는 다중에이전트 RL에서 흔히 발생하는 ‘게임화된 보상’ 현상을 완화하는 실용적인 접근이다. 전체적으로 OMAR는 (1) 단일 모델로 다중 역할을 학습시키는 효율성, (2) 계층적 어드밴티지로 장기 대화 학습을 안정화하는 기법, (3) 인간 감독 없이도 복합적인 사회적 행동을 스스로 발견한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기