RLVR 학습 역학 능력 경계에서의 연속적 성장과 급격한 전이
초록
본 논문은 변환기 기반 추론 모델에 대한 강화학습 보상(RLVR)의 학습 동역학을 이론적으로 분석한다. 난이도 스펙트럼이 부드러울 경우 쉬운 문제에서 지속적인 그래디언트가 harder 문제를 점진적으로 해결하게 하는 ‘릴레이 효과’를 보이며, 급격한 난이도 변곡점이 존재하면 ‘그로킹’과 유사한 단계적 정체 현상이 나타난다. 합성 실험을 통해 이 메커니즘을 검증한다.
상세 분석
논문은 먼저 RLVR이 “최종 결과만을 기반으로 한 보상”이라는 특성을 가지고 있음에도 불구하고 장기 추론 장벽을 극복할 수 있는 메커니즘을 탐구한다. 이를 위해 저자들은 변환기 모델을 함수 공간 상의 선형 연산자로 보고, 입력 데이터 집합을 난이도(difficulty)라는 스칼라 파라미터에 따라 연속 혹은 불연속적으로 분포된 서브셋으로 구분한다. 난이도 스펙트럼이 매끄럽게 변하면, 쉬운 샘플들에서 얻어지는 정책 그래디언트가 파라미터 공간을 일정 방향으로 지속적으로 이동시킨다. 이 과정은 마치 전기 회로에서 전류가 저항을 넘어 흐르듯, 낮은 난이도 영역에서 높은 난이도 영역으로 “신호가 전달”되는 릴레이 효과를 만든다. 수학적으로는 유한군 위의 푸리에 변환을 이용해 파라미터 업데이트를 주파수 성분으로 분해하고, 낮은 주파수(즉, 쉬운 문제에 해당) 성분이 고주파(어려운 문제) 성분을 점진적으로 활성화시키는 과정을 증명한다. 반면 난이도 스펙트럼에 급격한 불연속점이 존재하면, 그래디언트 신호가 특정 구간에서 거의 사라지는 ‘정체 구간’이 형성된다. 이때 파라미터는 지역 최소점에 머무르며, 일정 에폭 이후에야 높은 난이도 영역을 넘어서는 새로운 활성화가 일어나는데, 이는 기존 딥러닝에서 관찰된 그로킹 현상과 동일한 메커니즘이다. 저자들은 이러한 두 현상을 수식적으로 정의하고, 학습 곡선의 기울기와 보상 스무딩 파라미터 사이의 관계를 정량화한다. 실험에서는 난이도 스펙트럼을 인위적으로 설계한 합성 데이터셋을 사용해, 부드러운 스펙트럼에서는 학습이 거의 선형적으로 진행되는 반면, 불연속 스펙트럼에서는 장기간의 정체 후 급격한 정확도 상승이 나타남을 확인한다. 이 결과는 RLVR이 “능력 경계(edge of competence)”에 도달했을 때, 데이터 믹스 설계가 성능 향상의 결정적 요인임을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기