DISPO: 대규모 언어 모델 수학 추론을 위한 효율·안정 강화학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 수학 문제 해결을 위한 검증 가능한 보상을 이용한 강화학습(RL‑VR)에서, PPO 기반 방법은 안정하지만 학습이 느리고, 기존 REINFORCE 기반 방법은 빠르지만 불안정한 문제를 해결하고자 한다. 저자는 중요도 샘플링 가중치를 정답·오답, 그리고 가중치가 1보다 큰 경우·작은 경우로 네 가지로 구분해 각각 별도 클리핑 파라미터를 적용하는 DISPO 알고리즘을 제안한다. 이를 통해 탐색‑증류 균형을 조절하고, 오답에 대한 급격한 붕괴를 방지하여 AIME’24에서 61.04%라는 최고 성능을 달성한다.

상세 분석

DISPO는 기존 REINFORCE‑style 알고리즘(CISPO 등)이 동일한 클리핑 구간(ϵ_low, ϵ_high)을 정답·오답 모두에 적용함으로써 발생하는 “정책 업데이트 레짐”의 혼합 문제를 근본적으로 해소한다. 논문은 중요도 샘플링 가중치 r_i,t(θ)=π_θ(o_t|·)/π_ref(o_t|·) 를 기준으로 (① 정답(ˆA>0)·오답(ˆA<0) 여부, ② 가중치가 1보다 큰 경우(r>1)·작은 경우(r<1) 여부) 로 네 가지 레짐을 정의한다.

레짐 1(정답·r>1)에서는 가중치가 1을 초과하면 양의 학습 신호가 증폭되어 토큰 수준 엔트로피가 상승한다. 이는 모델이 이미 학습한 정답 패턴을 더욱 탐색하도록 유도해 다양하고 창의적인 풀이 경로를 생성한다. 클리핑 상한 ϵ⁺_high 를 크게 잡을수록 증폭 효과가 강해지지만, 과도하면 탐색이 과다해 평균 정확도가 서서히 감소한다.
레짐 2(정답·r<1)에서는 가중치가 1 이하일 때 양의 신호가 억제되어 엔트로피가 감소한다. 이는 “증류(distillation)” 효과로, 모델이 정답 토큰에 집중하도록 만든다. ϵ⁺_low 를 낮게 설정하면 억제 강도가 커져 빠른 수렴을 얻지만, 지나치면 과도한 수렴으로 인해 일반화가 저하될 위험이 있다.
레짐 3(오답·r>1)에서는 부정적 신호가 증폭돼 잘못된 토큰 확률을 급격히 낮춘다. 적절한 ϵ⁻_high 설정은 오류 패턴을 효과적으로 “언러닝(unlearning)”하게 하여 반복적인 오류 출력을 방지한다. 그러나 ϵ⁻_high 가 너무 작으면 증폭이 부족해 모델이 오류를 충분히 교정하지 못하고, 결과적으로 동일한 잘못된 답을 반복하는 현상이 나타난다(“repetition collapse”).
레짐 4(오답·r<1)에서는 부정적 신호가 억제돼 오답 토큰이 지나치게 낮아지면서 응답 길이가 급격히 짧아지는 현상이 발생한다. 이는 ϵ⁻_low 를 과도하게 낮게 잡을 경우 나타나며, 모델이 “무응답” 상태에 빠지는 급격한 성능 붕괴를 초래한다.

DISPO는 이 네 레짐 각각에 독립적인 클리핑 파라미터(ϵ⁺_low, ϵ⁺_high, ϵ⁻_low, ϵ⁻_high)를 도입해 탐색‑증류 균형과 오류 교정 강도를 세밀하게 조정한다. 실험에서는 레짐 1·2의 균형을 맞추어 평균 토큰 엔트로피를 적절히 유지하고, 레짐 3·4에서는 과도한 제한을 피함으로써 급격한 붕괴를 방지한다. 결과적으로 DISPO는 AIME’24에서 61.04%의 정확도를 기록했으며, 동일 모델·데이터 설정에서 CISPO(55.42%)와 DAPO(50.21%)를 크게 앞선다.

또한 논문은 그래디언트 가중치 w_i,t(θ) 를 시각화해 PPO‑style 클리핑은 r이 신뢰구역을 벗어나면 가중치를 0으로 만들지만, DISPO는 신호의 부호와 r의 크기에 따라 연속적인 가중치 스케일링을 제공한다는 점을 강조한다. 이는 정책 업데이트가 “부드러운 게이트”를 통과하도록 하여 학습 초기에 빠른 수렴을 유지하면서도 장기적으로 안정성을 확보한다는 의미이다.

마지막으로, DISPO는 기존 DAPO·CISPO와 동일하게 동적 샘플링, 토큰‑레벨 정규화, 과도한 응답 길이 억제 페널티를 포함하지만, 핵심 차별점은 레짐‑별 클리핑 해석과 그에 기반한 하이퍼파라미터 튜닝 전략이다. 이는 RL‑VR 분야에서 “신뢰구역 기반 제한”을 넘어 “신호‑대‑노이즈 비율”을 직접 제어하는 새로운 설계 패러다임을 제시한다.

DISPO: 대규모 언어 모델 수학 추론을 위한 효율·안정 강화학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기