전달 가능한 추론으로 강건성 확보: RLTR

전달 가능한 추론으로 강건성 확보: RLTR
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RLVR은 최종 정답만을 보상하지만 추론 과정의 견고함을 놓친다. 저자들은 “추론 전이 가능성”을 정의하고, 부분 추론을 다른 모델이 이어서 올바른 답을 얻을 수 있는지를 보상하는 전이 보상(Transfer Reward)을 도입한 RLTR을 제안한다. RLTR은 답변 보상에 전이 보상을 가중합해 정책을 업데이트하며, MATH‑500, GSM8K, AMC23 등에서 다중 샘플 일관성(Maj@K)과 평균 정확도를 동시에 향상시키고, 학습 단계도 2.5배 절감한다.

상세 분석

본 논문은 기존 강화학습 기반 LLM 정렬 방법인 RLVR이 최종 정답의 정확도만을 목표로 삼아, 중간 추론 단계의 재사용성·해석 가능성·안정성을 충분히 고려하지 못한다는 근본적인 한계를 지적한다. 이를 해결하기 위해 “추론 전이 가능성(Reasoning Transferability)”이라는 개념을 도입한다. 전이 가능성은 한 모델이 생성한 추론 프리픽스가 다른(또는 동일하지만 파라미터가 고정된) 모델에 의해 이어졌을 때, 최종 정답이 여전히 검증 가능한지 여부로 정의된다. 이 아이디어는 인간 학습에서 “다른 사람에게 설명할 수 있는 논리”가 더 견고하다는 직관과 일치한다.

구현 측면에서 RLTR은 두 단계 보상을 결합한다. 첫 번째는 기존 RLVR과 동일하게 최종 정답이 정답과 일치하면 1, 아니면 0인 답변 보상(R_ans)과 형식 보상(R_fmt)이다. 두 번째는 전이 보상(R_trans)으로, 생성 모델이 전체 추론을 만든 뒤 임의의 truncation 비율 τ∈


댓글 및 학술 토론

Loading comments...

의견 남기기