훈련‑추론 불일치, 최적화 문제로 재해석하고 응답 길이 기반 LR 스케줄러로 해결

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM) 강화학습(RL)에서 발생하는 훈련‑추론 불일치가 정적인 수치 차이가 아니라 최적화 과정에서 동적으로 악화되는 현상임을 실증한다. 불일치와 그래디언트 노이즈가 동시에 증가함을 관찰하고, 학습률을 감소시키면 불일치를 억제할 수 있음을 확인한다. 이를 바탕으로 응답 길이 급증을 조기 경고 신호로 활용해 학습률을 절반씩 감소시키는 “응답‑길이 기반 학습률 스케줄러”를 제안한다. 실험 결과, 제안 방법은 기존 Importance Sampling 기반 보정보다 안정적으로 RL 훈련을 유지한다.

상세 분석

이 논문은 LLM‑RL 훈련에서 흔히 보고되는 “훈련‑추론 불일치”(training‑inference mismatch)를 기존의 정적 수치 차이로 보는 관점을 탈피한다. 저자들은 로그 퍼플렉시티 차이(log‑ppl abs diff)와 그래디언트 노름을 시간에 따라 추적하면서, 훈련이 진행될수록 두 지표가 동시에 급격히 상승한다는 사실을 실험적으로 입증한다. 이는 모델 파라미터가 최적화 과정에서 점점 더 ‘날카로운’ 혹은 ‘고곡률’ 영역으로 이동하면서 부동소수점 연산의 비결합성에 의해 발생하는 수치적 잡음이 증폭된다는 가설과 일치한다.

특히, 그래디언트 노름이 증가함에도 불구하고 실제 신호(gradient signal)는 감소하는 현상을 관찰한다. 이는 노이즈‑주도 단계에 진입했음을 의미하며, 이때 학습률(η)을 감소시키면 노이즈에 의한 파라미터 변동이 기하급수적으로 억제된다는 간단한 이론적 분석을 제시한다(Appendix A). 실험적으로는 기본 학습률 1e‑6을 1e‑7로 낮추면 훈련 붕괴가 크게 지연되거나 회피되는 것을 확인한다. 다만, 학습 초기 단계에서는 학습 속도가 크게 저하되는 단점이 있다.

이 문제를 해결하기 위해 저자들은 “응답 길이 급증”(response‑length surge)을 조기 경고 신호로 채택한다. RL 훈련 중 평균 응답 길이가 급격히 늘어날 때, 이는 생성 토큰 수가 증가하면서 부동소수점 연산 순서가 늘어나고, 따라서 수치적 불일치가 확대될 가능성이 높아짐을 의미한다. 논문은 이 현상이 100 ~ 300 스텝 사이에 일관되게 나타나며, 이후 그래디언트 노이즈가 급증한다는 실험적 근거를 제시한다.

제안된 스케줄러는 일정 단계(T_decay)마다 학습률을 절반으로 감소시키는 “길이‑감쇠”(length‑decay) 방식을 사용한다. 최소 학습률 η_∞는 초기 학습률 η₀의 10 %로 설정한다. 알고리즘은 매우 단순하지만, 응답 길이 급증을 감지하면 즉시 학습률을 낮추어 그래디언트 노이즈의 영향을 억제한다.

실험은 Qwen‑3‑4B‑Base와 Qwen‑3‑8B‑Base 모델을 대상으로, 전체 데이터셋과 2.5 %~25 % 샘플링된 데이터셋 모두에서 수행되었다. 전통적인 Importance Sampling(토큰‑레벨, 시퀀스‑레벨) 및 그 변형(TIS, MIS)은 일정 정도 안정성을 연장했지만, 결국 붕괴를 방지하지 못했다. 반면, 제안된 길이‑감쇠 스케줄러는 학습이 수천 스텝까지 지속되도록 만들었으며, 로그 퍼플렉시티 차이와 그래디언트 노이즈 모두 낮은 수준을 유지했다.

비판적으로 보면, 논문의 주요 기여는 “학습률을 동적으로 낮추면 불일치를 억제한다”는 직관적인 사실을 실험적으로 확인하고, 응답 길이 급증을 트리거로 삼은 새로운 스케줄링 규칙을 제시한 점이다. 그러나 이 접근법은 여전히 경험적 휴리스틱에 크게 의존한다. 응답 길이와 불일치 사이의 인과관계를 수학적으로 엄밀히 증명하지 않았으며, 다른 잠재적 조기 경고 신호(예: gradient SNR, loss curvature)와의 비교도 부족하다. 또한 실험은 특정 중국어 기반 LLM에 국한되어 있어, 다양한 모델 아키텍처·언어·스케일에 대한 일반화 가능성을 검증하지 못했다. 마지막으로, 기존의 적응형 학습률 방법(예: AdamW의 bias‑correction, LAMB, Ranger)과의 직접적인 비교가 없으며, 제안 스케줄러가 실제로 더 효율적인지에 대한 비용‑효과 분석도 미비하다.

요약하면, 이 논문은 훈련‑추론 불일치를 최적화 동역학 문제로 재해석하고, 응답 길이 급증을 활용한 간단한 학습률 스케줄러가 실험적으로 효과적임을 보여준다. 하지만 이 접근법의 이론적 근거와 폭넓은 적용 가능성을 입증하기 위해서는 추가적인 분석과 다양한 베이스라인과의 비교가 필요하다.

훈련‑추론 불일치, 최적화 문제로 재해석하고 응답 길이 기반 LR 스케줄러로 해결

초록

상세 분석

댓글 및 학술 토론

의견 남기기