수학 문제 해결을 위한 적응형 커리큘럼 강화 미세조정
초록
AdaRFT는 모델의 최근 보상 신호에 따라 학습 문제의 난이도를 동적으로 조정하는 적응형 커리큘럼 전략을 도입해, 기존 강화 미세조정(RFT)의 샘플·연산 효율성을 크게 향상시킨다. PPO와 같은 표준 RL 알고리즘에 가벼운 확장만으로 적용 가능하며, 경쟁 수준 수학 데이터셋에서 학습 시간은 최대 2배 단축되고 정확도는 눈에 띄게 상승한다.
상세 분석
본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력을 강화하기 위한 강화 미세조정(RFT)의 근본적인 비효율성을 지적한다. 기존 RFT는 롤아웃 생성, 보상 계산, 정책 업데이트를 반복하는 과정에서 샘플당 연산 비용이 높고, 난이도가 지나치게 낮거나 높은 데이터에 과도하게 노출돼 학습 효율이 저하된다. 이를 해결하기 위해 저자들은 ‘AdaRFT(Adaptive Curriculum Reinforcement Finetuning)’라는 적응형 커리큘럼 메커니즘을 제안한다. 핵심 아이디어는 현재 모델의 성능을 나타내는 평균 보상 R_avg 에 기반해 목표 난이도 T 를 실시간으로 조정하고, 데이터셋 D 에서 |d_i − T| 가 가장 작은 B 개의 샘플을 선택해 학습에 사용한다. 난이도 조정식 T′ = clip(T + η·tanh(α·(R_avg − β)), d_min, d_max) 는 보상과 난이도 사이의 부드러운 매핑을 제공하며, β = 0.5 (성공률 50%)가 가장 큰 보상 분산을 유도해 학습 신호를 최적화한다는 이론적 근거를 KL‑다이버전스 하한 분석을 통해 제시한다.
난이도 추정은 별도 모델(Qwen 2.5 Math 7B)를 이용해 각 문제에 대해 d_i = 100·(1 − s_i/n) (여기서 s_i 는 성공 횟수, n = 128) 로 계산한다. 실험에서는 샘플 수가 64개일 때도 전체 128개 롤아웃 대비 ±0.05 오차 이내의 난이도 추정 정확도가 90% 이상임을 보여, 적은 비용으로 신뢰할 수 있는 난이도 라벨을 얻을 수 있음을 입증한다.
AdaRFT는 PPO와 같은 기존 RL 파이프라인에 최소한의 코드 변경만으로 삽입 가능하며, 학습 스케줄이나 보상 함수를 수정할 필요가 없다. 실험 결과는 AMC, AIME, IMO 수준의 경쟁 수학 문제 데이터셋에서 두 가지 모델 규모(7B와 13B) 모두 학습 시간 평균 1.8배 가량 감소하고, 최종 정확도는 3~5%p 상승한다는 점에서 실용성을 강조한다. 특히 데이터 불균형이 심한 상황에서 정적 샘플링 대비 성능 격차가 크게 나타나, 적응형 커리큘럼이 데이터 분포 변화에 강인함을 보여준다.
한계점으로는 난이도 라벨이 사전 계산된 점수에 크게 의존한다는 점이며, 라벨 품질이 낮을 경우 커리큘럼이 오히려 학습을 방해할 수 있다. 또한 현재는 이진 보상(정답/오답) 기반으로 설계돼 있어, 부분 점수나 단계적 힌트가 존재하는 복합 과제에는 추가적인 확장이 필요하다. 향후 연구에서는 자동 난이도 추정기의 지속적 업데이트, 다중 목표 보상 설계, 그리고 비수학 도메인(코드, 과학)으로의 일반화 가능성을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기