에이전트 기반 문제 생성으로 고난이도 추론 데이터 구축
초록
본 논문은 문제 합성을 목표‑지향 순차 의사결정 과정으로 모델링하고, 모듈식 추론 스킬을 동적으로 조합하는 에이전트 Agentic Proposing 프레임워크를 제안한다. Multi‑Granularity Policy Optimization(MGPO)으로 학습된 Agentic‑Proposer‑4B가 생성한 11,000개의 고품질 트래젝터리를 이용해 30B 솔버를 훈련시켰을 때, AIME 2025에서 91.6% 정확도를 달성하며 대규모 상용 모델에 필적한다.
상세 분석
이 연구는 복잡한 추론 문제를 “문제 합성”이라는 단일 텍스트 생성 과제로 보는 기존 접근법의 한계를 짚고, 이를 부분 관찰 마코프 결정 과정(POMDP)으로 재구성한다. 상태 S는 문제의 논리적 일관성과 난이도라는 잠재적 특성을, 행동 A는 인지적 응답, 도구 호출, 최종 제출 등 세 가지 서브셋으로 나눈다. 특히 인지적 행동 U에 ‘내적 반성(τthink)’을 도입해 에이전트가 스스로 논리 검증을 수행하도록 함으로써, 인간이 직접 검증하던 과정을 자동화한다.
핵심 기술은 “컴포저블 스킬” 개념이다. 각 스킬 k는 의도 ι, 구현 µ, 난이도 δ, 도구 힌트 τ 로 구성된 4‑tuple이며, Φ 연산자를 통해 n개의 스킬을 조합해 고차원 명령어 공간 L에 매핑한다. 이렇게 정의된 스킬 라이브러리 K_self는 대규모 코퍼스로부터 교사 정책(π_teacher)이 품질 점수 r(k)를 부여해 필터링하고, 최대우도 목표 L_skill‑acq를 통해 자동으로 구축된다. 동적 프루닝 메커니즘은 drafting 단계에서 τedit 호출로 부적합 스킬을 제거함으로써, 논리적 오류가 초기에 차단되도록 설계되었다.
학습 파이프라인은 세 단계로 나뉜다. 1) Skill Acquisition 단계에서 교사 정책이 생성한 후보 스킬을 품질 기준 τ_r에 따라 선별, K_self를 형성한다. 2) Agentic SFT 단계에서는 전문가 트래젝터리(D_expert)를 행동 복제(behavioral cloning)하여 초기 정책 π_ref를 얻는다. 여기서 각 트래젝터리는 내부 반성, 도구 사용, 스킬 프루닝을 포함하며, 최종 문제는 검증기 V에 의해 0/1 라벨링된다. 3) MGPO 단계에서는 다중‑Granularity 보상 구조를 도입해, 논리적 타당성(정답 존재 여부)과 난이도(예측 난이도와 목표 난이도의 차이) 두 축을 동시에 최적화한다. 보상은 단계별(초안, 검증, 정제, 제출)로 세분화돼 에이전트가 각 단계에서 적절히 스킬을 선택·조합하도록 유도한다.
실험 결과는 두드러진 성과를 보여준다. 4B 규모의 솔버를 10,000개의 합성 트래젝터리만으로 훈련했을 때, 기존 수학·코딩·과학 데이터셋 대비 전반적인 정확도가 5~12%p 상승했으며, 특히 AIME 2025에서 30B 모델이 91.6% 정확도를 기록했다. 이는 DeepSeek‑v3.1(≈20× 파라미터)이나 Mistral‑3와 같은 오픈소스 대형 모델을 능가하는 결과이며, GPT‑5·Gemini‑3와 같은 상용 모델과도 격차가 거의 없음을 의미한다. 또한, 동일한 합성 데이터를 사용한 과학·코딩 베ン치마크에서도 평균 7%p 이상의 개선을 보였으며, 데이터 양을 2배 늘려도 성능 향상이 정체되는 ‘데이터 포화’ 현상이 관찰되지 않았다.
이 논문은 “고품질 합성 데이터가 모델 규모보다 추론 성능에 더 큰 영향을 미친다”는 가설을 실증적으로 입증한다. 스킬 기반 모듈러 설계와 POMDP‑형식화, 그리고 다중‑Granularity 강화학습이라는 세 축이 결합돼, 인간 주석 비용을 크게 절감하면서도 검증 가능한 고난이도 문제를 지속적으로 생성할 수 있는 새로운 패러다임을 제시한다. 향후 연구에서는 스킬 라이브러리의 자동 확장, 멀티‑도메인 교차 스킬 조합, 그리고 인간‑에이전트 협업을 통한 데이터 품질 향상 등이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기