검증 중심 설계로 구현한 효율적인 딥 리서치 에이전트 Marco DeepResearch

본 논문은 “Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification‑Centric Design”이라는 제목 아래, 딥 리서치 에이전트가 장기적인 정보 탐색 과제에서 겪는 오류 전파 문제를 해결하기 위해 검증 중심 설계를 제안한다. 기존 딥 리서치 시스템은 QA 데이터 합성, 트래젝터리 생성, 테스트‑타임 스케일링 세 단계에서 명시적 검증이 부재해, 초기 단계에서 발생한 오류가 이후 단계에 누적·증폭되는 구조적 한계를 가지고 있었다. 이를 극복하고자 저자들은 다음과 같은 세 가지 핵심 기여를 제시한다. 1. **검증된 QA 데이터 합성 (Verified Data Synthesis)** - **그래프‑기반 파이프라인**: 기존의 엔티티 난독화(obfuscation) 방식은 답변의 유일성·정확성을 보장하지 못했다. Marco DeepResearch는 ‘답변‑우선 역방향 생성’ 방식을 도입한다. 먼저 지식 그래프에서 답변 엔티티를 구조·내용 제약(연결도, 문서 근거, 전임자 노드 등) 하에 샘플링하고, 다중 홉 추론을 강제하기 위해 4~8개의 중간 증거 노드를 역추적한다. 이후 ‘Generator‑Attacker‑Analyzer’ 3‑역할 adversarial verification 루프를 통해 동일 제약을 만족하는 대체 엔티티가 존재하지 않을 때까지 제약을 점진적으로 추가한다. 최종적으로 얻어진 제약 집합은 답변의 고유성 및 난이도를 보장한다. - **에이전트‑기반 웹 탐색 파이프라인**: 실제 웹 환경에서 질문‑답변을 생성하기 위해 질문 에이전트, 검색 에이전트, 검증 에이전트로 구성된 ‘생성‑실행‑검증’ 루프를 설계한다. 질문 에이전트는 복잡한 멀티‑홉 질문을 생성하고, 검색 에이전트는 웹을 탐색해 근거 문서를 수집한다. 검증 에이전트는 수집된 근거의 사실성, 모호성, 다중 답변 가능성을 자동으로 판단한다. 레이키지 검사를 통해 핵심 엔티티가 과도하게 노출되지 않도록 하며, 검증에 실패한 샘플은 폐기한다. 2. **검증‑구동 트래젝터리 구축 (Verification‑Driven Trajectory Construction)** - 기존 ReAct 기반 에이전트는 ‘Think‑Act‑Observe’ 순서만을 따랐으며, 중간 결과에 대한 검증이 없었다. Marco DeepResearch는 단일‑에이전트 ReAct에 ‘Reflection’과 ‘Verification’ 모듈을 삽입한다. 각 행동 직후 검색 결과를 검증 에이전트가 즉시 평가하고, 검증 실패 시 재탐색·거절 샘플링을 수행한다. - 다중‑에이전트 아키텍처에서는 서브‑에이전트가 각 단계별 증거를 수집·검증하고, 메인‑에이전트가 이를 종합해 최종 답변을 도출한다. 최종 단계에서는 ‘Grounding + Uniqueness Check’ 검증자를 통해 답변이 근거와 일치하고 고유한지 다시 한 번 확인한다. 이러한 설계는 훈련 데이터에 명시적 검증 패턴을 주입해 모델이 ‘검증 행동’을 학습하도록 만든다. 3. **검증자‑주도 테스트‑타임 스케일링 (Verifier‑Guided Test‑Time Scaling)** - 추론 시 도구 호출 예산(T_max)이 제한된 상황에서, 기존 방법은 단순히 호출 횟수를 늘리거나 토큰‑예산을 확대하는 수준에 머물렀다. Marco DeepResearch는 자체 에이전트를 검증자로 활용한다. 초기 답변이 불확실하거나 중간 단계에서 높은 불확실성을 보이면, 에이전트는 추가 추론 라운드를 수행하고 매 라운드마다 검증자를 통해 결과를 재평가한다. 이 과정을 ‘Verifier‑Guided Rollout’이라 부르며, 예산 한도 내에서 품질‑중심의 계산 할당을 가능하게 한다. **실험 및 평가** - **벤치마크**: BrowseComp, BrowseComp‑ZH, GAIA 등 6개 딥 리서치 벤치마크에서 8B 규모 Marco DeepResearch가 기존 8B 에이전트(MiroThinker‑8B, RE‑TRAC‑4B 등)를 크게 앞선다. 특히 BrowseComp‑ZH에서 600 도구 호출 예산 하에 Tongyi DeepResearch‑30B와 동등하거나 약간 앞선 성능을 기록한다. - **비교 대상**: 8B‑scale 모델들, 30B‑scale 상용·오픈소스 모델들, 그리고 최신 검증‑없는 베이스라인을 포함한다. - **Ablation Study**: (i) 검증 없는 그래프‑기반 합성, (ii) 검증 없는 트래젝터리, (iii) 검증 없는 테스트‑타임 롤아웃 각각을 제거했을 때 성능이 현저히 저하됨을 확인했다. 이는 제안된 세 단계 검증이 상호 보완적으로 작용함을 증명한다. - **효율성**: 8B 모델임에도 불구하고 600 호출 예산 내에서 30B 모델 수준의 정확도를 달성, 연산 비용 대비 효율성이 크게 향상되었다. **논의 및 한계** - 검증 모듈 자체가 대형 LLM에 의존하므로, 검증 단계에서도 오류가 발생할 가능성이 있다. - 검증 과정이 추가 연산을 요구해 실시간 응용에 제약이 있을 수 있다. - 현재는 웹 검색 도구에 초점을 맞추었으며, 코드 실행, 데이터베이스 질의 등 다른 도구와의 검증 연계는 미탐색이다. **미래 연구 방향** - 경량 검증 모델(예: 작은 파인튜닝된 검증기) 도입으로 연산 비용 절감. - 멀티‑모달 도구(이미지·동영상)와의 검증 연계. - 검증‑강화 학습(Reinforcement Learning with Verification) 프레임워크 구축을 통해 에이전트가 스스로 검증 정책을 최적화하도록 함. 결론적으로, Marco DeepResearch는 검증 중심 설계를 통해 데이터 품질, 트래젝터리 신뢰성, 추론 시 검증을 일관되게 통합함으로써, 작은 모델 규모에서도 대형 모델에 필적하는 성능을 달성한다는 점에서 딥 리서치 에이전트 분야에 중요한 전환점을 제공한다.

검증 중심 설계로 구현한 효율적인 딥 리서치 에이전트 Marco DeepResearch

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기