에이전트CPM‑리포트: 초대형 모델 없이 깊이 있는 연구 보고서를 쓰는 새로운 패러다임

에이전트CPM‑리포트: 초대형 모델 없이 깊이 있는 연구 보고서를 쓰는 새로운 패러다임
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AgentCPM‑Report는 8 B 파라미터 로컬 모델에 “쓰기‑그대로‑추론”(WARP) 정책을 적용해, 초안 작성과 심화 탐구를 교차하면서 동적으로 아웃라인을 수정한다. 다단계 에이전트 학습(콜드 스타트 → 원자 스킬 RL → 전체 파이프라인 RL)으로 작은 모델도 깊이 있는 연구 능력을 획득하며, DeepResearch Bench·DeepConsult·DeepResearch Gym에서 폐쇄형 대형 모델을 능가하는 인사이트 점수를 기록한다.

상세 분석

본 논문은 기존 “계획‑후‑작성”(plan‑then‑write) 방식이 초기에 완전한 아웃라인을 요구함으로써 작은 모델의 추론·지식 한계에 크게 좌우된다는 문제점을 지적한다. 이를 해결하기 위해 저자들은 인간이 글을 쓰면서 동시에 사고하고 새로운 질문을 발견하는 과정을 모델링한 “Writing As Reasoning Policy”(WARP)를 제안한다. WARP는 두 개의 매크로 상태, 즉 Evidence‑Based DraftingReasoning‑Driven Deepening을 번갈아 수행한다.

  1. Evidence‑Based Drafting 단계에서는 현재 아웃라인과 초안 컨텍스트를 바탕으로 섹션‑별 검색 쿼리를 생성하고, 검색된 문헌을 근거로 텍스트를 작성한다. 이때 검색 쿼리는 “Q, O_k, D_i”를 입력으로 하여 동적이고 컨텍스트‑민감하게 만든다. 결과적으로 초안은 증거에 기반한 일관성을 유지한다.

  2. Reasoning‑Driven Deepening 단계에서는 완성된 초안을 관찰해 논리적 공백이나 깊이 부족을 진단한다. 모델은 자체적으로 “Terminate” 혹은 “Expand” 결정을 내리며, 필요 시 특정 섹션을 더 세분화해 새로운 서브‑아웃라인을 생성한다. 이 과정은 인간이 초안을 읽으며 “이 부분을 더 파고들어야겠다”는 인지를 하는 것과 유사하다.

WARP는 정적 플래너와 달리 동적 정책이므로 장기 보상 할당과 행동 공간이 크게 확대된다. 이를 학습하기 위해 저자들은 Multi‑Stage Agentic Training을 설계했다.

  • Cold‑Start (SFT): 기본 지시 수행과 포맷 준수를 학습한다.
  • Atomic Skill RL: “Initialize”, “Search”, “Write”, “Expand”, “Terminate”와 같은 원자 행동에 대해 별도 보상 함수를 정의하고, 각 행동의 정확성·신뢰성을 강화한다. 보상 표(Table 1)에는 참고문헌 필요 여부와 LLM‑as‑Judge 활용 여부가 명시된다.
  • Holistic Pipeline RL: 전체 파이프라인을 엔드‑투‑엔드로 최적화한다. 여기서는 보고서의 Comprehensiveness, Insight, Faithfulness 등 고차원 메트릭을 사용해 최종 보고서 품질을 직접 보상한다.

특히 Trajectory Pruning 기법을 도입해 교사 모델이 과도하게 확장한 경로에서 최적의 종료 시점을 자동으로 라벨링한다. 이는 “언제 멈춰야 하는가”라는 모호한 문제를 명시적 신호로 변환해 작은 모델이 학습하기 쉽게 만든다.

실험에서는 MiniCPM‑4.1‑8B를 백본으로 사용했으며, 아웃라인 깊이를 3레벨, 최대 심화 스텝을 12로 제한해 효율성을 확보했다. DeepResearch Bench(100 + PhD‑level 과제), DeepConsult(비즈니스·재무 분석), DeepResearch Gym(일반 정보 탐색)에서 기존 폐쇄형 모델(Gemini‑2.5‑Pro 등) 대비 Insight 점수에서 평균 12‑18% 상승을 기록했다. 특히 작은 모델임에도 불구하고 복합적인 논리 전개와 새로운 관점을 제시하는 능력이 크게 향상된 것으로 나타났다.

이 논문의 핵심 기여는 (1) 정적 플래닝의 한계를 극복한 동적 아웃라인 진화 메커니즘, (2) 장기 보상 문제를 해결한 다단계 강화학습 프레임워크, (3) 8 B 규모 모델로도 고품질 깊이 연구를 가능하게 만든 실증적 증거다. 또한 로컬 환경에서 실행 가능하므로 데이터 프라이버시와 보안 측면에서도 큰 장점을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기