LLM 추론을 위한 로그확률 보상 설계
초록
본 논문은 체인‑오브‑쓰루(Chain‑of‑Thought) 학습에 로그확률을 보상으로 사용하면, 검증 가능한 짧은 답변과 검증 불가능한 긴 답변 모두에서 기존 이진 보상이나 순수 확률 보상보다 일관되게 좋은 성능을 보이며, 사전학습과 동일한 로그‑우도 목표와도 정렬된다는 점을 실증한다.
상세 분석
이 연구는 LLM을 CoT 방식으로 미세조정할 때, 전통적인 0/1 이진 보상 대신 레퍼런스 답변의 로그확률(log‑probability)을 직접 보상으로 활용하는 방법을 체계적으로 검증한다. 먼저, 레퍼런스 답변이 존재하는 모든 데이터셋에 적용 가능한 ‘확률 기반 보상’이라는 큰 틀을 정의하고, 기존 문헌에서 제안된 VeriFree(확률), RLPR(평균 확률), JEPO(그룹 로그‑평균), NO‑VER(지오메트릭 평균) 등 여러 변형을 구현한다. 핵심 아이디어는 모델이 답변을 샘플링하지 않아도 되며, CoT z가 주어졌을 때 a* (레퍼런스 답변)의 로그우도 log πθ(a*|p,z)를 바로 계산해 보상으로 사용한다는 점이다. 이는 사전학습 시 사용되는 다음‑토큰 교차 엔트로피 손실과 동일한 형태이므로, 학습 신호가 더 밀집하고 변동성이 적다.
실험은 두 개의 검증 가능한 벤치마크(MATH, DeepScaleR)와 두 개의 검증 불가능한 설정(Alpaca, NuminaMath‑Proof)에서 진행되었다. 모델은 Qwen‑2.5와 Llama‑3.2 계열을 사용했으며, SFT(지도학습), 기본 RL(RLOO), 그리고 위에서 언급한 다양한 확률 기반 보상을 모두 비교하였다. 주요 발견은 다음과 같다.
-
로그확률 보상의 범용성: 로그확률 보상(log‑prob)만이 모든 실험 조건에서 성공률과 퍼플렉시티 양쪽을 만족한다. 특히 검증 가능한 도메인에서는 성공률이 기존 이진 보상과 동등하거나 약간 우수했으며, 퍼플렉시티는 SFT 수준에 가깝게 감소한다. 반면 순수 확률 보상(VeriFree 등)은 긴 답변에서 확률이 급격히 희박해져 학습이 정체된다.
-
퍼플렉시티와 성공률의 트레이드‑오프: 기본 RL과 확률 기반 보상은 성공률은 어느 정도 확보하지만, 퍼플렉시티는 크게 악화된다. 이는 모델이 정답을 맞추기 위해 비정상적으로 높은 확률을 할당하면서 일반화 능력이 떨어지는 현상으로 해석된다. 로그확률 보상은 이러한 현상을 완화해 사전학습 목표와 일관된 언어 모델링 품질을 유지한다.
-
CoT 길이 동역학: 로그확률 보상은 학습 초기 단계에서 CoT를 짧게 만드는 경향이 있다. 검증 가능한 경우에는 이후 학습이 진행되면서 CoT 길이가 회복되지만, 검증 불가능한 경우에는 짧은 CoT가 유지되어 결국 SFT와 유사한 행동을 보인다. 이는 로그확률 보상이 ‘답변 자체’를 직접 최적화하기 때문에 중간 추론 단계가 불필요해지는 현상으로, 불필요한 토큰을 줄여 효율성을 높인다. 반면, 기본 RL이나 VeriFree는 CoT 길이 변화를 거의 보이지 않는다.
-
학습 효율성: 로그확률 보상은 답변을 샘플링할 필요가 없으므로, 매 학습 스텝당 연산량이 감소한다. 또한, leave‑one‑out 방식의 어드밴티지를 그대로 적용할 수 있어 편향을 최소화한다.
-
제한점 및 향후 과제: 로그확률 보상은 레퍼런스 답변이 반드시 존재해야 한다는 전제가 있다. 따라서 완전한 자유형 생성(예: 창작 소설)에는 직접 적용이 어려우며, 이러한 경우에는 자체 생성된 ‘가상 레퍼런스’를 이용한 self‑distillation 방식이 필요할 수 있다. 또한, CoT 길이 축소가 지나치게 일어나면 인간이 이해하기 어려운 매우 압축된 추론이 될 위험도 존재한다.
전반적으로, 논문은 로그확률 보상이 LLM의 CoT 미세조정에 있어 가장 일관되고 효율적인 보상 설계임을 실증적으로 입증한다. 이는 검증 가능한 수학·코드 문제뿐 아니라, 검증 불가능한 장문 답변에서도 기존 SFT와 동등한 성능을 유지하면서, 사전학습과 동일한 목표 함수를 활용한다는 점에서 큰 의미를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기