다단계 LLM 추론에서 과정과 결과 크레딧 발견

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 다단계 추론 과정에서 단계별 정보 이득을 정량화하는 마진 정보 이득(MIG) 메커니즘을 제안한다. 단일 이진 보상에 의존하는 기존 강화학습 방식의 보상 희소성을 극복하고, 프로세스와 결과를 분리해 보상하는 디커플드 마스킹 전략과 결과‑게이트형 SFT를 결합해 학습 효율과 일반화 능력을 크게 향상시킨다.

상세 분석

이 연구는 LLM 추론을 강화학습(RL) 문제로 재구성하면서, “과정‑결과 크레딧”이라는 새로운 보상 패러다임을 도입한다. 핵심은 Step‑wise Marginal Information Gain(MIG)이다. 각 추론 단계 s_k에 대해 정답 y*에 대한 조건부 로그가능도 ℓ_k를 계산하고, 이전 단계까지의 최고 ℓ 값을 Monotonic Historical Watermark(h_{k‑1})으로 유지한다. 이후 g_k = max(0, ℓ_k ‑ h_{k‑1}) 로 정의된 보상은 논리적 돌파구가 발생했을 때만 양의 값을 부여한다. 이는 위치에 무관하게 의미적 진보를 포착하고, “펌프‑앤‑덤프”식 보상 해킹을 방지한다.

보상 구조는 세 가지 손실로 구성된다. L_MIG는 MIG 기반 어드밴티지를 CoT 마스크에 적용해 과정 탐색을 촉진한다. L_Outcome은 기존 GRPO 방식의 이진 정답 보상과 포맷 준수 보상을 그룹 정규화 후 결합해 전체 시퀀스에 적용한다. 마지막으로 L_Gated‑SFT는 구조와 정답 두 조건이 모두 만족될 때만 SFT를 수행하도록 이중 게이트를 도입, 고품질 데이터 증류를 보장한다.

디커플드 마스킹 전략은 과정 보상과 결과 보상을 명확히 분리함으로써, 탐색적 사고와 정확한 답변 사이의 상충을 완화한다. 또한, 다중 모달(텍스트·이미지) 데이터에 동일한 MIG 계산을 적용해 모달리티에 독립적인 보상 신호를 제공한다. 실험에서는 GSM8K, MATH, Super‑CLEVR 등 8개 데이터셋에서 기존 GRPO·DAPO·GSPO 대비 샘플 효율성과 최종 정확도가 크게 개선되었으며, OOD 벤치마크에서도 강인한 제로샷 전이 성능을 보였다. 특히 정답 변형을 허용하는 등식(ℓ_k의 max over Y*)을 도입해 수학 문제의 다중 정답 형태에도 견고하게 대응한다. 전체적으로 이 논문은 보상 설계 단계에서 정보 이득을 직접 측정함으로써, LLM의 추론 과정에 대한 세밀한 신호를 제공하고, 결과 정합성을 유지하면서도 탐색 능력을 크게 확장하는 혁신적 접근을 제시한다.

다단계 LLM 추론에서 과정과 결과 크레딧 발견

초록

상세 분석

댓글 및 학술 토론

의견 남기기