골든 구스: 검증 불가 텍스트로 무한 RLVR 과제 만들기
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 검증 불가능한 인터넷 텍스트를 활용해 다중 선택형 Fill‑in‑the‑Middle 과제를 자동 생성하는 “골든 구스” 기법을 제안한다. 핵심 추론 단계에 마스크를 삽입하고, GPT‑5가 다양하고 설득력 있는 오답 선택지를 생성하도록 함으로써 0.7 M 규모의 GooseReason 데이터셋을 구축한다. 이 데이터는 기존 RLVR 데이터 포화 현상을 극복하고, 1.5 B·4 B 모델을 15개 벤치마크에서 지속적으로 향상시킨다. 또한 사이버보안 분야에 특화된 GooseReason‑Cyber를 만들어 4 B 모델이 7 B 도메인 특화 모델을 능가하는 성과를 보였다.
상세 분석
골든 구스는 “Fill‑in‑the‑Middle” 방식을 다중 선택형(MCQ) 형태로 변환함으로써 검증 불가 텍스트에서도 자동으로 검증 가능한 보상 신호를 만들 수 있다는 점에서 혁신적이다. 구체적으로, 원본 문서 S에서 연속적인 추론 단계 t를 식별하고 이를
댓글 및 학술 토론
Loading comments...
의견 남기기