동적 어드밴티지 추정으로 강화학습 기반 추론 모델을 가속화하는 ADORA

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ADORA는 온라인 롤아웃 결과를 실시간으로 분석해 학습 샘플을 ‘일시적 이점 샘플(TAS)’과 ‘일시적 불이점 샘플(TDS)’으로 구분하고, 각각의 어드밴티지를 가중·감쇠한다. 이를 기존 PPO·GRPO와 같은 정책 최적화 알고리즘에 손쉽게 적용함으로써 수학·기하 추론에서 수렴 속도를 높이고 학습 안정성을 개선한다.

상세 분석

본 논문은 강화학습(RL) 기반 추론 모델이 직면하는 ‘정적 어드밴티지 추정’ 문제를 정확히 짚어낸다. 기존 PPO나 GRPO는 샘플별 어드밴티지를 한 번 계산하면 학습 전체에 걸쳐 변하지 않는 고정값으로 사용한다. 이는 학습이 진행됨에 따라 동일 샘플이 제공하는 학습 신호가 급격히 변할 수 있음에도 불구하고, 그 변화를 반영하지 못해 효율적인 크레딧 할당이 어려워진다. 특히, 긴 체인‑오브‑생각(Chain‑of‑Thought)이나 복합적인 수학·기하 문제에서는 초기에는 짧고 쉬운 샘플이 우세하게 작용해 모델이 얕은 패턴에 과적합되는 위험이 있다.

ADORA는 이러한 한계를 ‘동적 어드밴티지 가중치’라는 간단하지만 강력한 메커니즘으로 해결한다. 핵심 아이디어는 (1) 롤아웃 길이와 성공률을 기준으로 샘플을 일시적 이점(TAS)과 일시적 불이점(TDS)으로 구분하고, (2) TAS에는 어드밴티지를 그대로 사용하고, TDS에는 감쇠 계수 λ_att < 1을 곱해 신호를 약화한다는 것이다. 길이 어드밴티지는 가장 긴 성공 롤아웃 길이가 평균 실패 길이보다 클 때, 난이도 어드밴티지는 성공 비율이 사전 정의된 임계값 τ 이하이면서 0보다 클 때 부여된다. 이러한 두 기준은 서로 보완적으로 작용해 얕은 성공을 걸러내고, 현재 모델이 아직 마스터하지 못한 난이도 높은 샘플을 강조한다.

또한, 논문은 VLM(Visual Language Model)과 LLM(Large Language Model)의 특성을 구분한다. VLM은 초기 추론 능력이 약해 짧고 쉬운 샘플에 과다 의존하는 경향이 있으므로, ADORA는 TDS에 강한 감쇠를 적용해 ‘노이즈’ 샘플을 억제한다. 반면, LLM은 이미 어느 정도 깊은 추론을 수행하므로, 감쇠보다는 TAS의 비중을 확대해 학습 플래토를 깨는 신호를 강화한다.

실험 결과는 ADORA가 다양한 모델 아키텍처(Dense, MoE)와 규모(7B~13B)에서 일관되게 성능 향상을 가져옴을 보여준다. 수학 벤치마크에서는 Qwen‑7B 기준 GRPO 대비 평균 3.4%p 상승, VLM에서는 2,000개 미만 샘플로 MathVista에서 73.5% 정확도 달성 등, 적은 데이터와 최소한의 하이퍼파라미터 튜닝만으로도 눈에 띄는 이득을 얻었다. Ablation 실험을 통해 어드밴티지 가중치의 감쇠 비율, 길이·난이도 기준의 민감도 등을 검증했으며, 다른 어드밴티지 추정 방식(GAE 등)과 결합해도 안정적인 개선을 확인했다.

결론적으로 ADORA는 ‘샘플의 동적 가치’를 실시간으로 측정·반영함으로써 정책 그라디언트의 신호‑대‑노이즈 비율을 크게 개선한다. 이는 기존 정적 어드밴티지 추정이 갖는 근본적인 한계를 보완하고, 복잡한 추론 작업에서 RL 기반 파인튜닝의 효율성을 크게 높이는 실용적인 프레임워크라 할 수 있다.

동적 어드밴티지 추정으로 강화학습 기반 추론 모델을 가속화하는 ADORA

초록

상세 분석

댓글 및 학술 토론

의견 남기기