적은 쿼리로 더 많이 배우다 불확실성 일관성 기반 RLVR 쿼리 선택
초록
본 논문은 수학 추론을 위한 강화학습(RLVR)에서 대규모 라벨링 비용을 줄이기 위해, 주관적 불확실성과 객관적 불확실성의 정합성을 측정하는 새로운 메트릭을 제안한다. 오프라인에서는 점-이분 상관계수(PBC)를, 온라인에서는 정규화된 어드밴티지와 주관적 불확실성을 이용한 변형 지표를 사용해 샘플을 선택한다. 실험 결과, 전체 데이터셋의 30%만 사용해도 기존 전체 학습과 동등하거나 더 높은 성능을 달성한다.
상세 분석
이 연구는 LLM 기반 수학 추론에서 검증 가능한 보상(RLVR)을 활용하면서도, 기존 방법이 수만 건의 쿼리를 필요로 하는 비효율성을 지적한다. 전통적인 활성학습(Active Learning) 전략—예를 들어 최소 신뢰도(LC), 마진 샘플링(MS), 최대 엔트로피(Entropy) 등—은 주관적 불확실성(모델이 예측한 퍼플렉시티 등)만을 기준으로 샘플을 선택한다. 그러나 RLVR에서는 보상이 이진(정답/오답)이며, 주관적 불확실성이 높지만 실제로는 정답인 경우(‘불일치 샘플’)가 정책 그래디언트의 분산을 급격히 증가시켜 학습을 불안정하게 만든다. 반면, 주관적·객관적 불확실성이 동시에 높거나 낮은 ‘일관성 샘플’은 그래디언트 크기가 작고 안정적이다.
이를 정량화하기 위해 저자들은 점-이분 상관계수(PBC, r_pb)를 도입한다. r_pb는 각 쿼리 x에 대해 K개의 응답을 생성하고, 정답 여부(R)와 주관적 불확실성(U) 사이의 상관을 측정한다. r_pb가 크게 음수일수록 두 변수 간 부정적 상관이 강해, 즉 주관적·객관적 불확실성이 잘 맞물린다는 의미이다. 오프라인에서는 충분한 K를 확보해 정확히 계산할 수 있지만, 온라인 학습에서는 샘플 수가 제한되고 정책이 계속 변하기 때문에 직접 계산이 어렵다.
이에 저자들은 온라인용 변형 지표 r_online_pb를 제안한다. r_online_pb는 현재 정책의 정규화된 어드밴티지(Â)와 주관적 불확실성(U)을 결합해 추정한다. 이론적으로 r_online_pb는 오프라인 r_pb와 부의 상관관계를 가지며, r_online_pb를 최대화하는 것이 곧 샘플별 주관적 불확실성을 최적화하는 것과 동등함을 증명한다. 즉, r_online_pb가 큰 샘플은 주관적·객관적 불확실성이 일치하는 경우가 많아, 학습에 가장 유익한 쿼리로 판단된다.
실험에서는 Qwen2.5-0.5B 모델을 MATH 데이터셋에 적용해, 전통적 AL 전략(PPL, Entropy, K‑center, K‑means, AskLLM)과 무작위 선택을 비교한다. 모든 전통적 전략이 무작위와 거의 동일한 성능을 보인 반면, r_pb 기반 오프라인 선택과 r_online_pb 기반 온라인 선택은 10%~30%의 샘플만 사용해도 전체 데이터셋을 학습한 경우와 동등하거나 더 높은 정확도를 달성했다. 또한, 불일치 샘플에서 발생하는 그래디언트 노름의 분산이 크게 감소함을 그래프와 통계치로 입증했다.
핵심 기여는 다음과 같다. 1) 주관적·객관적 불확실성의 정합성을 측정하는 PBC 기반 메트릭을 제안하고, 이를 오프라인 샘플링에 적용한다. 2) 온라인 학습에 적합하도록 정규화된 어드밴티지와 주관적 불확실성을 결합한 r_online_pb를 설계하고, 이와 오프라인 PBC 사이의 부의 상관관계를 이론적으로 증명한다. 3) 실제 수학 추론 RLVR 환경에서 제안 방법이 기존 방법 대비 라벨링 비용을 70% 이상 절감하면서도 성능 저하가 없음을 실증한다.
이 연구는 RL 기반 LLM 튜닝에서 “어떤 샘플을 학습에 포함시킬 것인가”라는 질문에 새로운 관점을 제공한다. 불확실성 자체가 아니라, 불확실성 간의 일관성을 고려함으로써 학습 안정성을 크게 향상시키고, 비용 효율적인 데이터 선택 전략을 구현한다는 점에서 향후 다양한 RL‑LLM 응용 분야에 확장 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기