프로세스 보상 모델의 새로운 패러다임, 엔트로피 기반 불확실성 활용

프로세스 보상 모델의 새로운 패러다임, 엔트로피 기반 불확실성 활용
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

EDU‑PRM은 토큰 수준의 엔트로피를 이용해 자동으로 단계 경계(불확실성 앵커)를 찾고, Monte‑Carlo 기반으로 단계별 보상을 추정한다. 인간 라벨링 없이도 복잡한 수학 추론 과정을 효과적으로 감독하며, ProcessBench에서 기존 PRM을 능가하고, 1.5 %의 학습 데이터만으로도 SOTA 수준의 정확도를 달성한다. 또한 EDU 샘플링을 적용한 추론 시 토큰 사용량을 32 % 절감하면서 정확도를 2.6 %p 상승시킨다.

상세 분석

본 논문은 기존 프로세스 보상 모델(PRM)이 직면한 두 가지 근본적인 한계—고비용의 단계 라벨링과 “치팅” 현상(높은 단계 점수가 최종 정답을 보장하지 않음)—을 해결하기 위해 엔트로피 기반 불확실성(Entropy‑Driven Uncertainty, EDU) 샘플링을 도입한다. 핵심 아이디어는 토큰 예측 확률 분포의 엔트로피가 사전에 정의한 임계값 τ를 초과하는 위치를 ‘불확실성 앵커’로 간주하고, 이 지점을 기준으로 추론 과정을 동적으로 분할한다. 이렇게 얻어진 각 조각(fragment)은 최종 답안의 정오성을 Monte‑Carlo Estimation(MCE)으로 평가해 0/1 라벨을 부여한다. 라벨링 과정에 인간이나 별도 LLM 판단이 전혀 개입되지 않으며, 라벨은 최종 정답의 유무만을 기준으로 자동 생성된다.

EDU‑PRM은 두 단계로 구성된다. 첫 번째 단계는 고엔트로피 토큰을 탐지하고, 해당 토큰에서 상위 2개의 로그잇을 이용해 두 갈래로 브랜칭한다. 이후 각 브랜치는 greedy(최대 확률) 방식으로 진행되어 다음 앵커가 나타날 때까지 토큰을 생성한다. 두 번째 단계에서는 생성된 트리 구조의 각 조각에 대해 MCE를 적용해 ‘soft’ 보상을 산출하고, 이를 교차 엔트로피 손실로 학습한다. 이 과정은 기존 PRM이 필요로 하는 정교한 단계 라벨(예: PRM800K)과 달리, 최종 정답만을 활용해 대규모 데이터셋을 저비용으로 구축할 수 있게 한다.

실험에서는 Qwen2.5‑72B‑Base와 7B‑Base 두 모델을 사용해 약 1.42 M개의 EDU‑샘플링 인스턴스를 생성하였다. 엔트로피 임계값 1.0이 가장 좋은 성능‑효율 균형을 제공한다는 실증적 근거도 제시한다. 평가에서는 ProcessBench, MA TH, GSM8K, OLYMPIA 등 네 가지 수학 베치마크에 대해 기존 Math‑Shepherd PRM, Omega PRM, Qwen2.5‑Math‑PRM 등과 비교하였다. EDU‑PRM‑72B는 MA TH에서 88.4 %의 정확도로 Qwen2.5‑Math‑PRM‑72B(87.8 %)를 0.6 %p 앞섰으며, GSM8K와 OLYMPIA에서도 동등하거나 우수한 성능을 기록했다. 또한 BoN(Best‑of‑N) 설정에서 Greedy‑EDU‑PRM은 토큰 사용량을 32 % 절감하면서 정확도를 64.7 %→67.3 %로 끌어올렸다. 이는 고온 샘플링(HT) 대비 동일 혹은 더 적은 연산량으로 다양하고 질 높은 후보를 생성할 수 있음을 의미한다.

본 연구는 엔트로피를 ‘활성 제어 신호’로 활용해 단계 경계를 동적으로 정의함으로써, 정적 규칙(예: 빈 줄, 구두점) 기반 분할의 한계를 극복한다. 또한 Monte‑Carlo 기반의 fragment‑level 보상 추정은 단계 점수가 최종 정답과 일관되도록 정렬시켜 ‘치팅’ 현상을 크게 감소시킨다. 이러한 설계는 라벨링 비용을 최소화하면서도 대규모 모델에 적용 가능한 스케일러블한 프로세스 감독 프레임워크를 제공한다는 점에서 학계와 산업계 모두에 큰 의미를 가진다. 향후 연구에서는 불확실성 앵커 탐지에 보다 정교한 적응형 임계값 조정, 멀티모달 추론에의 확장, 그리고 다른 도메인(예: 코드 생성, 과학 논문 요약)에서의 적용 가능성을 탐색할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기