형식과 길이만으로 수학 문제 해결 라벨 없는 강화학습
초록
본 논문은 수학 문제 풀이에서 정답 라벨 없이도 강화학습을 수행할 수 있음을 보인다. 답안의 형식(구조)과 길이(응답 길이)를 서브시그널로 사용해 GRPO 알고리즘을 최적화하고, 초기 학습 단계에서는 형식 신호만으로 전체 성능 향상의 약 85%를 달성한다. 길이 보상을 추가하면 과도하게 짧거나 긴 답변을 억제해 정확도를 더욱 끌어올릴 수 있다. 7B 모델을 AIME2024에 적용했을 때 40 % 정확도를 기록했으며, 다양한 모델 규모와 시리즈에 걸쳐 일관된 성능 향상을 확인했다. 연구 결과는 강화학습이 새로운 지식을 주입하기보다 사전학습된 모델에 내재된 추론 능력을 “활성화”한다는 새로운 관점을 제시한다.
상세 분석
이 논문은 수학 문제 해결이라는 고난이도 추론 작업에서 정답 라벨이 갖는 비용과 희소성을 극복하기 위해 두 가지 서브시그널, 즉 **형식(format)**과 **길이(length)**를 활용한다. 형식 신호는 답변이 수학적 표기 규칙(예: 식 전개, 단계 구분, 기호 사용 등)을 충족하는지를 이진값으로 판단한다. 길이 신호는 응답 길이를 전체 컨텍스트 길이 대비 비율 x 로 정규화하고, 사전 정의된 전환점 p (기본값 0.5)에서 상승‑하강 형태의 연속적인 보상 함수를 적용한다. 이 두 신호를 R₍fl₎ = R_f + R_l(형식이 올바른 경우) 로 결합해 GRPO(그룹 상대 정책 최적화) 알고리즘에 삽입함으로써, 전통적인 정답 기반 보상 없이도 정책 업데이트가 가능하도록 설계했다.
실험에서는 DeepScaleR(17 k)과 Math‑train(7.5 k) 두 데이터셋으로 사전 학습된 Qwen2.5‑Math 시리즈와 Llama3.1‑OctoThinker 등 8 B~72 B 규모의 모델을 훈련시켰다. 형식‑전용 보상만 사용했을 때 초기 15 step 내에 정확도 향상의 85 %를 달성했으며, 이는 정답 기반 보상과 거의 동일한 성장 곡선을 보였다. 그러나 이후 학습이 진행될수록 형식‑전용 정책은 포화 상태에 빠져 추가적인 성능 향상이 정체된다. 이는 형식이 필수조건이지만 충분조건은 아니라는 점을 실증한다.
길이 보상을 도입한 형식‑길이 보상은 이러한 정체를 깨고, 과도한 출력(길이 > p)과 과소 출력(길이 < p)을 각각 페널티화함으로써 모델이 적절한 추론 단계 수를 유지하도록 유도한다. 결과적으로 AIME2024에서 7 B 모델이 40 % 정확도를 기록했으며, 동일 데이터셋에서 정답 기반 GRPO가 26.7 %에 머물렀다. 또한, 1.5 B, 72 B 등 다양한 규모에서도 평균 정확도 90 % 이상(정답 기반 대비) 을 유지했으며, 특히 작은 모델(DeepSeek‑Math‑7B‑Base)에서는 성능 향상이 4,000 %에 달하는 극적인 개선을 보였다.
논문은 RL이 새로운 수학 지식을 학습하기보다 사전학습된 모델에 내재된 잠재적 추론 능력을 끌어내는 메커니즘임을 주장한다. 이는 “라벨‑프리 강화학습”이 실제로는 라벨‑효율적인 사후 미세조정에 가깝다는 해석을 가능하게 한다. 또한, 형식‑길이 보상의 설계가 특정 함수 형태에 민감하지 않고, “적당한 길이”라는 일반적 편향만 있으면 충분함을 실험적으로 확인했다. 이러한 발견은 향후 라벨이 거의 없거나 전혀 없는 도메인(예: 과학 논문 요약, 복잡한 증명 생성)에서도 구조적·양적 서브시그널을 활용한 강화학습이 유효할 가능성을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기