노이즈 데이터는 강화학습 보상 검증에 치명적

본 논문은 최근 대규모 언어 모델(LLM)의 사후 학습 기법인 검증 가능한 보상 강화학습(RLVR)이 데이터 노이즈에 대해 실제로 얼마나 강인한지를 재검증한다. 기존 연구들은 “노이즈 데이터가 100%일 때도 청정 데이터와 비슷한 성능을 유지한다”는 주장을 제시했지만, 저자들은 이러한 주장에 근본적인 오류가 있음을 발견했다. 첫 번째 단계는 기존 논문에서 사용된 100% 노이즈 데이터셋을 정밀히 분석하는 것이었다. 표면적으로는 모든 라벨이 잘못된 것으로 보였지만, GPT‑5 Pro와 인간 검증을 결합한 4단계 파이프라인(LLM 주석 생성 → 기호적 동등성 검사 → LLM‑as‑Judge 필터링 → 수동 검증)을 통해 실제로는 최소 16.4% 이상의 라벨이 정답에 해당하거나, 정답 집합이 불완전해 잘못된 것으로 분류된 경우가 많았다. 이러한 “오염”은 모델이 실제로는 청정 데이터와 유사한 신호를 학습하게 만들었다는 점에서 기존 결과의 신뢰성을 크게 떨어뜨렸다. 오염을 제거하고 순수 노이즈 데이터셋을 구축한 뒤, 저자들은 다양한 RLVR 알고리즘을 동일한 실험 환경에서 비교했다. 기본 모델은 Qwen2.5‑Math‑7B이며, 실험에 사용된 알고리즘은 GRPO(기본), DAPO, SAPO, Dr GRPO, TIS, PGFC 등이다. 노이즈 유형은 (1) 모델이 생성한 잘못된 답변(합성 노이즈), (2) 완전 무작위 정수 라벨(무작위 노이즈), (3) 포맷 보상(형식만 맞추면 보상), (4) 실제 인간 주석 오류(실제 Text2SQL 데이터) 네 가지로 구분하였다. 핵심 결과는 다음과 같다. 100% 순수 노이즈 상황에서 모든 알고리즘은 포맷 보상 수준과 거의 동일한 성능을 보였으며, 청정 데이터 대비 약 9% 낮은 정확도를 기록했다. 50% 노이즈에서도 가장 성능이 좋은 알고리즘이 GRPO와 비슷한 수준에 머물렀고, 청정 데이터 대비 3%~5% 정도 손실이 있었다. 무작위 라벨을 사용하면 오히려 기본 모델보다 성능이 떨어졌으며, 이는 정책 그라디언트가 완전히 잘못된 보상 신호에 의해 왜곡된다는 것을 의미한다. 알고리즘적 보정 기법(편향 보정, 적응형 클리핑, 동적 샘플링 등)도 기대 이하의 효과를 보였다. 이들 기법은 i.i.d. 노이즈 가정 하에서 이론적으로는 유효하지만, 실제 질문마다 다른 노이즈 패턴을 보이는 상황에서는 정확한 노이즈 비율을 추정하기 어려워 성능 회복에 한계가 있었다. 실세계 적용을 위해 저자들은 Text2SQL 작업에 널리 사용되는 BIRD 데이터셋을 선택했다. 기존 BIRD 데이터는 50% 이상이 인간 주석 오류를 포함하고 있었으며, 저자들은 수동으로 오류를 교정한 깨끗한 버전을 만들었다. 실험 결과, 원본(노이즈) 데이터로 학습한 모델은 정확도가 5%~12% 낮았으며, 이는 수학적 추론 실험에서 관찰된 성능 저하와 일관된다. 결론적으로, 이 논문은 (1) 기존 RLVR 연구가 데이터 오염 문제를 간과했으며, (2) 진정한 노이즈 환경에서는 최신 알고리즘조차 청정 데이터 수준을 회복하지 못한다는 사실을 실증한다. 따라서 현재 RLVR 방법론만으로는 데이터 품질을 대체할 수 없으며, 고품질 주석 확보가 여전히 핵심 과제임을 강조한다. 향후 연구 방향으로는 (i) 보다 정교한 검증기와 동적 노이즈 모델링, (ii) 질문‑특화 노이즈 추정 및 보정, (iii) 대규모 데이터 정제 자동화 기술 개발이 제시된다.

노이즈 데이터는 강화학습 보상 검증에 치명적

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기