협력형 코치 플레이어 강화학습으로 데이터프리 수학 추론 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
CPMobius는 코치와 플레이어 두 개의 독립 모델이 협력하여 난이도가 적절한 수학 문제를 자동 생성하고 해결함으로써, 외부 데이터 없이도 LLM의 추론 능력을 크게 향상시키는 프레임워크이다. 코치는 플레이어의 현재 실력을 평가해 과제 난이도를 조절하고, 플레이어는 검증 가능한 보상과 GRPO를 통해 학습한다. 실험 결과 Qwen2.5‑Math‑7B‑Instruct 모델에서 전체 정확도가 평균 +4.9%, OOD 정확도가 +5.4% 상승하였다.
상세 분석
CPMobius는 기존의 적대적 셀프플레이와 달리 협력적 커리큘럼 설계라는 교육학적 원칙을 강화학습에 도입한다. 코치 모델은 정책 π_C θ 로 표현되며, 현재 플레이어 정책 π_P ϕ 의 성능 변화를 나타내는 전역 정확도 향상 Δ_t 를 스칼라 보상으로 받는다. 코치는 매 라운드 m개의 문제 x_i 를 샘플링하고, 각 문제에 대해 플레이어가 n개의 답변 y_{i,j} 를 생성한다. 다수결을 통해 의사 라벨 y*i 를 만든 뒤, 개별 답변에 대해 검증 가능한 보상 r{i,j}=𝟙
댓글 및 학술 토론
Loading comments...
의견 남기기