수학 증명 검증을 위한 확장 가능한 보상 모델 ProofRM

수학 증명 검증을 위한 확장 가능한 보상 모델 ProofRM
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ProofRM은 LLM이 생성한 증명을 단계별로 검증할 수 있는 보상 모델을 제안한다. 질문‑증명‑검증(QPC) 삼중항 데이터를 자동·다양하게 구축하고, 계층적 인간 검증과 LLM‑as‑RM 기법을 결합해 학습 안정성을 확보한다. 실험에서 높은 정확도와 일반화 능력을 입증한다.

상세 분석

본 논문은 수학 문제 해결에서 “검증 비대칭성”이 강한 경우(예: 선택형, 수치형 답)와 달리, 증명 기반 문제는 검증이 어려워 기존 RLVR 접근법이 한계에 봉착한다는 점을 지적한다. 이를 극복하기 위해 저자들은 Q(문제), P(증명), C(검증) 삼중항 데이터를 대규모로 생성하는 파이프라인을 설계한다. 첫 단계에서는 OlympiadBench, USAMO, Putnam 등 다양한 난이도와 언어 스타일을 가진 문제를 수집하고, 공식 해설 및 교육기관 제공 스크립트를 원본으로 활용한다. 두 번째 단계에서는 여러 LLM(GPT‑4, Claude, LLaMA 등)과 서로 다른 프롬프트(재작성, 마스크 생성, 단계별 확장)를 이용해 기존 증명을 변형하거나 완전 새로운 증명을 생성함으로써 언어·논리·길이 등 다차원적 다양성을 확보한다. 생성된 증명은 LLM 3종이 각각 5번씩 판단하도록 하여 만장일치일 경우 자동 라벨(T/F)을 부여하고, 라벨 일관성이 높은 데이터 조합에 대해서만 인간 검증을 샘플링한다. 이 “조합‑레벨” 인간 검증은 전체 라벨링 비용을 90% 이상 절감하면서도 라벨 품질을 유지한다.

학습 단계에서는 단순 이진 T/F 라벨만으로 RL을 진행하면 증명 과정의 잡음이 보상에 반영돼 모델 붕괴가 발생한다는 현상을 발견한다. 이를 해결하기 위해 두 가지 전략을 도입한다. 첫째, “LLM‑as‑a‑RM‑for‑RM” 방식을 적용해 LLM이 생성한 사고 흐름(Chain‑of‑Thought)의 유창성을 보조 목표로 설정하고, 이와 실제 검증 결과를 동시에 학습한다. 둘째, 출력 길이 편차가 큰 경우 토큰 가중치를 시퀀스‑레벨과 토큰‑레벨에서 균형 있게 조정해 과도한 길이 편향을 억제한다. 이러한 개선을 통해 18k 샘플·112M 토큰 규모의 RL 과정을 312 스텝 이상 안정적으로 수행한다.

실험에서는 ProofRM이 기존 베이스라인(예: 단순 LLM 판단, IneqMath, DeepTheorem)보다 증명 정확도에서 8~12%p 향상을 보였으며, 다양한 난이도와 도메인(중국 고등수학, 국제 올림피아드)에서 일반화 능력을 입증한다. 또한 테스트 시 ProofRM을 보조 보상으로 활용하면 상위 k(예: top‑3) 모델 선택 정확도가 크게 상승해, 실제 수학 에이전트나 데이터 수집 파이프라인에 바로 적용 가능함을 보여준다.

전체적으로 이 논문은 증명 검증이라는 고난이도 과제를 자동화하기 위한 데이터·모델·학습 전반에 걸친 종합적 솔루션을 제시하며, 향후 LLM 기반 수학 추론 연구에 중요한 기반을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기