수학 증명 검증을 위한 확장 가능한 보상 모델 ProofRM

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ProofRM은 LLM이 생성한 증명을 단계별로 검증할 수 있는 보상 모델을 제안한다. 질문‑증명‑검증(QPC) 삼중항 데이터를 자동·다양하게 구축하고, 계층적 인간 검증과 LLM‑as‑RM 기법을 결합해 학습 안정성을 확보한다. 실험에서 높은 정확도와 일반화 능력을 입증한다.

상세 분석

본 논문은 수학 문제 해결에서 “검증 비대칭성”이 강한 경우(예: 선택형, 수치형 답)와 달리, 증명 기반 문제는 검증이 어려워 기존 RLVR 접근법이 한계에 봉착한다는 점을 지적한다. 이를 극복하기 위해 저자들은 Q(문제), P(증명), C(검증) 삼중항 데이터를 대규모로 생성하는 파이프라인을 설계한다. 첫 단계에서는 OlympiadBench, USAMO, Putnam 등 다양한 난이도와 언어 스타일을 가진 문제를 수집하고, 공식 해설 및 교육기관 제공 스크립트를 원본으로 활용한다. 두 번째 단계에서는 여러 LLM(GPT‑4, Claude, LLaMA 등)과 서로 다른 프롬프트(재작성, 마스크 생성, 단계별 확장)를 이용해 기존 증명을 변형하거나 완전 새로운 증명을 생성함으로써 언어·논리·길이 등 다차원적 다양성을 확보한다. 생성된 증명은 LLM 3종이 각각 5번씩 판단하도록 하여 만장일치일 경우 자동 라벨(T/F)을 부여하고, 라벨 일관성이 높은 데이터 조합에 대해서만 인간 검증을 샘플링한다. 이 “조합‑레벨” 인간 검증은 전체 라벨링 비용을 90% 이상 절감하면서도 라벨 품질을 유지한다.

학습 단계에서는 단순 이진 T/F 라벨만으로 RL을 진행하면 증명 과정의 잡음이 보상에 반영돼 모델 붕괴가 발생한다는 현상을 발견한다. 이를 해결하기 위해 두 가지 전략을 도입한다. 첫째, “LLM‑as‑a‑RM‑for‑RM” 방식을 적용해 LLM이 생성한 사고 흐름(Chain‑of‑Thought)의 유창성을 보조 목표로 설정하고, 이와 실제 검증 결과를 동시에 학습한다. 둘째, 출력 길이 편차가 큰 경우 토큰 가중치를 시퀀스‑레벨과 토큰‑레벨에서 균형 있게 조정해 과도한 길이 편향을 억제한다. 이러한 개선을 통해 18k 샘플·112M 토큰 규모의 RL 과정을 312 스텝 이상 안정적으로 수행한다.

실험에서는 ProofRM이 기존 베이스라인(예: 단순 LLM 판단, IneqMath, DeepTheorem)보다 증명 정확도에서 8~12%p 향상을 보였으며, 다양한 난이도와 도메인(중국 고등수학, 국제 올림피아드)에서 일반화 능력을 입증한다. 또한 테스트 시 ProofRM을 보조 보상으로 활용하면 상위 k(예: top‑3) 모델 선택 정확도가 크게 상승해, 실제 수학 에이전트나 데이터 수집 파이프라인에 바로 적용 가능함을 보여준다.

전체적으로 이 논문은 증명 검증이라는 고난이도 과제를 자동화하기 위한 데이터·모델·학습 전반에 걸친 종합적 솔루션을 제시하며, 향후 LLM 기반 수학 추론 연구에 중요한 기반을 제공한다.

수학 증명 검증을 위한 확장 가능한 보상 모델 ProofRM

초록

상세 분석

댓글 및 학술 토론

의견 남기기