와이드시크 멀티에이전트 확장을 통한 광범위 검색

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

와이드시크는 지식 그래프 기반 파이프라인으로 구축한 GBIS 벤치마크와, 동적으로 서브 에이전트를 생성·조정하는 계층형 멀티에이전트 구조를 제안한다. 통합 강화학습으로 전체 트래젝터리를 최적화해 정보량이 방대하고 제약이 복잡한 “와이드 리서치” 과제를 효율적으로 해결한다.

상세 분석

본 논문은 기존의 “딥 리서치”(깊이 중심, 순차적 추론)와 대비되는 “와이드 리서치”(넓이 중심, 병렬적 탐색) 패러다임을 정의하고, 이를 실현하기 위한 두 축인 데이터 파이프라인과 에이전트 최적화를 체계적으로 제시한다.

첫 번째 축인 데이터 파이프라인은 대규모 지식 그래프(KG)를 활용해 ‘시드 엔티티·시드 제약’으로부터 복합 논리식 Φ를 자동 생성한다. 논리 연산(∧, ∨, ¬)을 재귀적으로 적용해 목표 엔티티 집합 E*를 도출하고, 해당 엔티티들의 속성을 분석해 목표 속성 집합 A를 선정한다. 이후 LLM 기반의 쿼리 생성·검증 루프를 통해 인간이 이해하기 쉬운 자연어 질의를 만든다. 이 과정에서 30,000여 개의 후보 작업이 생성되고, 규칙 기반·LLM 기반·인간 검증 3단계 필터링을 거쳐 최종 5,156개의 고품질 GBIS 태스크가 확보된다. 특히, 각 태스크마다 열별 평가 루브릭을 자동 생성해 정량적·정성적 평가를 동시에 가능하게 한다는 점이 혁신적이다.

두 번째 축인 에이전트 최적화는 ‘플래너‑익시큐터’ 패턴을 기반으로 메인 에이전트가 동적으로 서브 에이전트를 포크한다는 설계가 핵심이다. 기존 연구가 사전에 역할과 수를 고정한 반면, 와이드시크는 정책 πθ가 현재 상태와 작업 복잡도에 따라 서브 에이전트 수 k를 결정한다. 각 서브 에이전트는 동일한 통합 정책을 공유하면서 독립적인 로컬 MDP를 수행하고, 검색·페이지 열기 등 도구 호출을 통해 정보를 수집한다. 서브 에이전트가 반환한 결과는 메인 에이전트의 전역 상태에 통합되어 최종 테이블 합성 단계로 이어진다.

학습 측면에서는 전체 계층형 트래젝터리를 하나의 시퀀스로 선형화하고, 이를 강화학습(RL) 목표인 아이템 F1·툴 오류 페널티·그룹 정규화와 결합한다. 교사 모델로부터 수집한 고품질 트래젝터리를 활용한 감독 미세조정(SFT) 후, PPO 기반의 RL을 적용해 정책을 엔드‑투‑엔드로 최적화한다. 실험 결과, 에이전트 수를 확대할수록 성공률과 Row F1, Item F1이 크게 향상되며, 특히 복합 제약이 높은 태스크에서 기존 베이스라인을 크게 앞선다.

이 논문은 (1) 대규모, 다양성, 복합 제약을 갖춘 벤치마크 구축 방법론, (2) 동적 서브 에이전트 포크와 통합 정책을 통한 멀티에이전트 스케일링, (3) 트래젝터리 선형화와 RL을 결합한 엔드‑투‑엔드 최적화 프레임워크라는 세 가지 핵심 기여를 제공한다. 특히, ‘와이드 리서치’라는 새로운 연구 영역을 정의하고, 이를 실험적으로 입증함으로써 검색 인텔리전스가 단일 답변 탐색을 넘어 대규모 표 형식 정보 합성으로 확장될 가능성을 제시한다.

와이드시크 멀티에이전트 확장을 통한 광범위 검색

초록

상세 분석

댓글 및 학술 토론

의견 남기기