좋은 접두어를 살리자: 오류 페널티를 통한 LLM 추론 강화

좋은 접두어를 살리자: 오류 페널티를 통한 LLM 추론 강화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 과정 보상 모델(PRM)을 활용해 첫 번째 오류를 탐지하고, 올바른 접두어에만 보상을 부여하는 VPPO(Verifiable Prefix Policy Optimization) 방식을 제안한다. 이를 통해 희소한 최종 보상만 사용하는 기존 RL 방법의 신용 할당 문제를 해결하고, 다양한 추론 벤치마크에서 Pass@1·Pass@K 모두 향상된 성능을 보인다.

상세 분석

VPPO는 기존 PRM 기반 강화학습이 겪는 두 가지 핵심 문제를 명확히 짚는다. 첫째, PRM 점수가 노이즈가 많고 해석이 어려워 단계별 보상으로 바로 활용하기엔 신뢰성이 낮다. 둘째, 현재 PRM 벤치마크는 “첫 번째 오류 탐지”라는 명확한 목표에 초점을 맞추지만, 기존 RL 연구는 PRM 점수를 그대로 누적 보상으로 사용해 목표 정합성이 결여돼 있다. 저자들은 이러한 불일치를 해소하기 위해 PRM을 “첫 번째 오류 탐지기”로만 활용한다. 구체적으로, 잘못된 롤아웃이 발생하면 PRM이 최초 오류 위치를 식별하고, 그 이전까지의 토큰 시퀀스를 ‘좋은 접두어(good prefix)’로 정의한다. 이후 VPPO는 이 접두어의 마지막 토큰에 추가 보상 α를 부여하고, 오류 이후 토큰에는 패널티를 적용한다. 이렇게 하면 올바른 중간 단계가 보존·강화되고, 오류 단계만 억제되는 형태의 밀도 높은 학습 신호가 생성된다.

기술적으로는 기존 GRPO(Group Relative Policy Optimization) 프레임워크를 그대로 사용하면서, 보상 함수 r(q, ot, ot)를 다음과 같이 수정한다. 정답이면 최종 토큰에 1을, 오류이면서 토큰이 좋은 접두어에 속하면 α(0≤α≤1)를, 그 외에는 0을 부여한다. 이 보상은 토큰 수준에서 차등 적용되므로, 동일한 롤아웃 내에서도 초기 단계와 오류 단계가 서로 다른 어드밴티지를 갖게 된다. 또한 표준편차를 이용한 정규화가 불안정할 경우 평균만 빼는 방식으로 변형하고, 고성능 모델에서는 ReLU를 적용해 접두어 어드밴티지가 음수가 되지 않도록 설계했다.

실험에서는 AIME25, GSM8K, MathQA 등 다중 단계 추론 벤치마크에서 VPPO가 기존 희소 보상 RL 및 PRM‑mix, RRTS와 같은 최신 PRM‑기반 방법들을 일관되게 앞선다. 특히 Pass@1에서 평균 3~7%p 상승을 기록했으며, Pass@K에서도 전반적인 커버리지가 개선되었다. 분석 결과, 오류 전까지의 올바른 단계가 전체 추론 길이의 약 34%를 차지하고, 88%의 실패 샘플이 최소 하나의 올바른 단계를 포함한다는 사실이 VPPO의 설계 근거를 뒷받침한다. 또한 탐색‑활용 트레이드오프 측면에서, VPPO는 희소 보상만 사용할 때 발생하는 ‘그라디언트 소실’ 문제를 완화하고, 오류 이후의 확률 질량을 다른 올바른 경로로 재분배함으로써 모델의 다양성과 정확성을 동시에 높인다.

전반적으로 VPPO는 PRM을 복잡한 단계별 점수로 직접 활용하는 대신, 가장 신뢰할 수 있는 “첫 번째 오류 탐지” 정보를 활용해 보상을 정교하게 shaping함으로써, LLM 추론에서의 신용 할당 문제를 효과적으로 해결한다는 점에서 의미가 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기