RL 훈련 언어 모델의 최적 추론 길이 탐구
초록
본 연구는 강화학습(RL)으로 사후 훈련된 대형 언어 모델(LM)의 추론 길이가 성능과 효율성에 미치는 영향을 조사한다. Qwen3‑1.7B‑Base와 DeepSeek‑R1‑Distill‑Qwen‑1.5B 두 모델에 대해 다양한 길이 제어 기법(RLOO‑LP, ALP, DRPO 등)을 적용한 결과, 모델마다 최적 길이 패턴이 다르며, 과도한 길이는 출력 분산을, 과도한 짧음은 ‘언더싱킹’(under‑thinking)을 초래한다는 두 가지 실패 모드를 확인하였다.
상세 분석
이 논문은 RL 기반 체인‑오브‑쓰(Chain‑of‑Thought, CoT) 추론이 모델 성능을 크게 향상시키지만, 동시에 출력 길이 증가로 인한 계산 비용이 급증한다는 문제의식에서 출발한다. 저자는 두 개의 사전 학습 모델, Qwen3‑1.7B‑Base(초기 추론 능력 약함)와 DeepSeek‑R1‑Distill‑Qwen‑1.5B(사전 증류로 추론 능력 강함)를 선택해, 동일한 RL 훈련 파이프라인(DAPO 변형) 하에 길이 제어 방법을 비교하였다.
실험 설정은 8 GPU, 72시간(≈576 GPU‑hour) 훈련 후 640·480 스텝에서 평가했으며, 수학적 추론 벤치마크(AIME 2024/2025, AMC, Math‑500)를 사용해 평균 정확도를 측정했다. 길이 제어 기법으로는 기존 샘플 평균(Sample Avg, GRPO)과 토큰 평균(Token Avg, DAPO) 기반 베이스라인 외에, 명시적 길이 페널티를 적용하는 RLOO‑LP, ALP, DRPO를 적용하였다.
핵심 결과는 두 모델이 길이‑성능 관계에서 전혀 다른 곡선을 보였다는 점이다. Qwen3‑1.7B‑Base는 출력 길이가 늘어날수록 정확도가 지속적으로 상승했으며, 강한 길이 페널티는 성능 저하를 초래했다. 이는 모델이 초기 RL 단계에서 충분한 사고 단계가 필요하고, 긴 출력이 추론 패턴을 학습하는 데 필수적임을 시사한다. 반면 DeepSeek‑R1‑Distill‑Qwen‑1.5B는 중간 길이에서 최고 성능을 기록했고, 과도하게 짧거나 긴 출력 모두 정확도를 떨어뜨렸다. 특히, 길이가 최적점보다 길어지면 ‘분산 증가’가 발생했는데, 이는 모드 정확도는 유지되거나 약간 상승함에도 전체 정확도가 감소하는 현상으로, 출력이 정답 주변에 머무르면서도 다양한 오답을 동시에 생성하는 ‘디스퍼전’ 현상이다. 반대로 너무 짧은 출력에서는 모드 정확도와 모드 비율이 모두 낮고 엔트로피가 높아, 모델이 정답 중심 자체를 놓치고 있음을 보여준다.
이러한 현상은 Ghosal et al. (2025)의 이론적 분석과 일맥상통한다. 그들은 정책 분산(σ²)과 보상의 비단조적 관계를 제시했으며, 여기서 저자들은 RL 훈련에 의해 정책 자체가 변한다는 점을 추가로 고려했다. 실험적으로 엔트로피와 모드 쉐어를 측정해, 긴 출력이 분산을, 짧은 출력이 중심 이동을 각각 야기한다는 두 가지 실패 모드를 정량화했다.
결과적으로, ‘길이 페널티는 추론 습득 단계에서는 해로울 수 있지만, 이미 강력한 사전 추론 능력을 가진 모델에는 적절히 튜닝된 길이 제어가 효율성을 크게 향상시킨다’는 실용적 교훈을 얻는다. 또한, 현재 제안된 길이 제어 방법들은 하이퍼파라미터 탐색에 크게 의존하므로, 자동으로 최적 길이 구간을 탐색하는 메커니즘이 필요함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기