탐색 붕괴를 방지하는 앵커 정책 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 강화학습 기반 검증 가능한 보상(RLVR)에서 발생하는 ‘재귀적 공간 수축(RSC)’ 현상을 규명하고, KL 정규화가 초래하는 형태 매칭 제약의 한계를 지적한다. 저자는 지원 커버리지를 중심으로 안전 매니폴드(Safe Manifold)를 정의하고, 이를 기반으로 한 ‘앵커 정책 최적화(APO)’를 제안한다. APO는 오류 발생 시 안전 매니폴드로 복구하는 풀링 힘을 삽입해, 샤프닝은 유지하면서 탐색 붕괴를 방지한다. 이론적 증명과 수학 베치마크 실험을 통해 Pass@1 성능 향상과 Pass@K 다양성 회복을 동시에 달성함을 보인다.

상세 분석

본 연구는 최근 LLM 기반 수학 문제 해결에서 강화학습(RLVR)이 ‘트리 가지치기’ 메커니즘으로 작동한다는 가설을 출발점으로 삼는다. 이 과정에서 정책이 정답 경로에 과도하게 집중하면서, 다른 정답 가능 경로가 점차 확률 질량을 잃는 ‘재귀적 공간 수축(Recursive Space Contraction, RSC)’ 현상이 발생한다는 점을 정량적으로 분석한다. RSC는 두 가지 동역학, 즉 긍정적 업데이트에 의한 샤프닝(확률 질량을 정답 토큰에 집중)과 부정적 업데이트에 의한 ‘압축 효과(Squeezing Effect)’가 상호 작용하면서 발생한다. 압축 효과는 오류 토큰의 확률을 감소시키는 과정에서 다른 토큰의 로그잇(logit) 업데이트가 현재 확률에 비례하도록 만들며, 이는 ‘부자에게 몰려가는(rich‑get‑richer)’ 현상을 초래한다. 결과적으로 낮은 확률을 가진 올바른 토큰은 점점 더 작은 확률을 얻게 되고, 샘플링 자체가 사라져 복구가 불가능해진다.

전통적인 KL 정규화는 정책 πθ와 레퍼런스 모델 πref 사이의 전역적인 형태 매칭을 강제한다. 이는 정책이 레퍼런스의 전체 확률 분포, 즉 노이즈까지 그대로 복제하도록 만들며, 샤프닝을 억제한다. 저자는 KL 패널티가 보상 신호와 반대 방향의 그래디언트를 생성해 PPO 신뢰 영역을 위반할 위험이 있음을 수식적으로 증명한다. 따라서 KL 기반의 ‘Shape Matching’은 정확도 향상을 위한 샤프닝과 충돌한다.

이에 대한 해결책으로 제안된 ‘앵커 정책 최적화(APO)’는 두 단계로 구성된다. 첫째, 레퍼런스 모델의 고신뢰 토큰 집합을 ‘Safe Manifold(Msafe)’으로 정의하고, 정책이 이 집합 내에서 자유롭게 확률 질량을 재분배하도록 허용한다. 둘째, 오류가 감지되면 정책 비율 r_t(θ)에 ‘Pull Force’를 삽입해 Msafe로부터 질량을 끌어오는 정규화 항을 추가한다. 이 항은 ‘Virtual Anchor Ratio’를 이용해 안전 매니폴드의 총 질량을 추정하고, 오류 토큰 자체를 앵커에서 제외함으로써 신호 소멸(signal cancellation) 문제를 회피한다. 결과적으로 APO의 정규화 그래디언트는 보상 그래디언트와 완전히 정렬(collinear)되어, 신뢰 영역을 벗어나지 않으면서도 지원 커버리지를 최대화한다는 이론적 보장을 제공한다.

실험에서는 AIME24/25, Math500, Minerva 등 다섯 개의 수학 베치마크에서 APO가 KL 기반 베이스라인 대비 Pass@1을 최대 6% 향상시키고, Pass@K(다양성) 지표를 1.5~3.3% 회복함을 확인한다. 특히 Top‑8 안전 매니폴드가 전체 정답 토큰의 97.5%를 포함한다는 ‘Oracle Coverage’ 분석을 통해, 단일 Greedy Path가 놓치는 16% 이상의 유효 토큰을 복구할 수 있음을 실증한다. 전체적으로 APO는 ‘정확도‑다양성 트레이드오프’를 깨고, 샤프닝을 유지하면서도 탐색 붕괴를 방지하는 새로운 정규화 패러다임을 제시한다.

탐색 붕괴를 방지하는 앵커 정책 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기