수학 추론 정렬을 위한 탐색 규모 반박: PACE 접근법
초록
본 논문은 기존 DPO‑R1이 대규모 Best‑of‑N 샘플링(N≥8)으로 고품질 추론 경로를 찾는 것이 오히려 검증기 노이즈와 분포 이동을 확대해 정책 붕괴를 초래한다는 점을 이론적으로 증명한다. 이를 해결하기 위해 최소 샘플링(N≈2)으로 실패 사례를 교정해 고정보호 쌍을 생성하는 PACE(Proximal Alignment via Corrective Exploration)를 제안하고, 수학 추론 벤치마크에서 DPO‑R1(N=16) 대비 5배 적은 연산량으로 동등하거나 우수한 성능을 달성함을 실증한다.
상세 분석
이 논문은 Iterative Direct Preference Optimization(DPO)의 핵심 가정, 즉 “더 많은 탐색이 더 좋은 샘플을 만든다”는 스케일링 가설을 수학적 추론 영역에 적용했을 때의 함정을 정밀히 파헤친다. 먼저 저자들은 베스트‑오브‑N(BoN) 방식이 검증기(V)와의 적대적 마이닝을 촉진한다는 점을 수식적으로 전개한다. 검증기 노이즈 ε와 모델의 실제 성공 확률 α를 도입해, N이 증가함에 따라 검증기를 통과하는 거짓 양성(FP) 비율 Ψ(α) 가 실질적으로 상승한다는 것을 보여준다. 특히, 새로운 샘플이 추가될 때마다 경험적 통과율 ρ̂이 1/N 수준으로 급격히 감소하면서, FP 비율이 비례적으로 높아지는 “표면적 확대” 현상이 발생한다.
다음으로 분포 이동(Distributional Shift) 문제를 KL 발산 하한식 D_KL ≥ η log(η/α)+(1−η)log((1−η)/(1−α)) 로 정량화한다. 여기서 η는 목표 성공 확률이며, α가 낮을수록 하한이 커져 정책 업데이트 시 신뢰 구역(trust region)을 크게 벗어나게 된다. 이는 PPO와 같은 안정적 RL 기법이 요구하는 KL 제한을 위반하게 만들며, 결과적으로 정책 붕괴나 과적합을 야기한다.
이러한 이론적 비판에 대응해 제안된 PACE는 세 단계로 구성된다. 1) Proximal Exploration: N=2 로 최소한의 샘플을 생성해 현재 정책의 로컬 불확실성을 탐색한다. 2) Hindsight Refinement: 실패한 경로(y_err)를 입력으로 하여 정답(y*)와 비교·수정하도록 모델 자체에게 “교정” 프롬프트를 제공한다. 여기서는 품질 게이트(Consistency Filter)를 적용해 논리적 일관성이 없는 허위 교정 결과를 걸러낸다. 3) Contrastive Pair Construction: 교정된 정답(y_fix)과 원본 오류(y_err)를 Hard Negative 쌍으로 묶어 DPO 손실에 투입한다. 이때 y_fix과 y_err는 의미적으로 매우 유사하지만 논리적 타당성에서 차이를 보이므로, 그래디언트가 고밀도 정보를 제공한다.
실험에서는 GSM8K, MATH, 그리고 자체 구축한 노이즈 라벨 셋(20% 라벨 오염)에서 PACE가 DPO‑R1(N=16) 대비 4~5배 빠른 학습 속도와 동일하거나 더 높은 정확도를 기록한다. 특히 라벨 노이즈가 존재할 때 DPO‑R1은 급격히 성능이 하락하는 반면, PACE는 안정적인 학습 곡선을 유지한다. 이는 PACE가 “거대한 탐색”이 아니라 “깊이 있는 교정”에 초점을 맞춤으로써 검증기 노이즈에 대한 민감도를 크게 낮춘 결과로 해석된다.
한계점으로는 현재 검증기 V가 비교적 단순한 신경망 기반 스코어러이며, 복잡한 수학적 증명에서는 여전히 오탐이 발생할 수 있다는 점이다. 또한 PACE의 Hindsight 단계가 모델 자체에 의존하기 때문에, 초기 정책이 매우 약할 경우 교정 품질이 낮아질 위험이 있다. 향후 연구에서는 외부 수학 증명 엔진이나 심볼릭 검증기를 결합해 교정 신뢰성을 강화하고, 다중 단계 교정(다단계 히스토리)으로 오류 누적을 방지하는 방안을 모색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기