에이전트 검색의 새로운 지평
초록
이 논문은 LLM 기반 에이전트가 생성하는 합성 쿼리와 그 검색 과정을 체계적으로 기록·분석한 데이터셋 ASQ를 소개한다. 인간 중심 IR이 가정해 온 전제들이 에이전트 시대에 맞지 않음을 지적하고, 3가지 오픈소스 에이전트와 2가지 검색 파이프라인을 활용해 HotpotQA, Researchy Questions, MS MARCO 등 세 벤치마크에서 발생한 전체 검색 트레이스를 수집·공개한다. 데이터 구조·수집 방법론, 내재·외재적 특성, 확장 가능성을 상세히 제시하며, 향후 에이전트‑중심 IR 연구와 시스템 최적화에 기반이 될 것을 기대한다.
상세 분석
본 연구는 기존 IR이 인간 사용자를 전제로 설계·평가돼 왔음에도 불구하고, LLM 에이전트가 자동으로 다중 쿼리를 발행하면서 발생하는 새로운 검색 패러다임을 간과하고 있음을 비판한다. 에이전트가 생성하는 쿼리는 인간이 입력한 초기 프롬프트를 기반으로 체인‑오브‑쓰앗(Chain‑of‑Thought) 과정을 거쳐 단계별로 세분화된 서브쿼리를 만든다. 이러한 서브쿼리는 고속·대량으로 발생하고, 문체·의도 면에서 인간 쿼리와 차별화된다. 따라서 캐시 효율성 감소, 전통적 전처리 비용 증가, 기존 정밀도·재현율 기반 메트릭의 신뢰도 저하 등 시스템 최적화와 평가에 근본적인 재고가 필요하다.
논문은 이를 해결하기 위한 데이터 수집 방법론을 제시한다. 에이전트 실행(arun) 동안 디코딩 루프마다
데이터셋 ASQ는 세 가지 오픈소스 에이전트(검색‑R1, AutoRefine, 기타)와 두 종류의 검색 파이프라인(전통 BM25 기반, dense retriever) 조합으로 구성된다. 각 에이전트는 HotpotQA(멀티‑홉), Researchy Questions(리서치형), MS MARCO(dev)(사실형) 질문에 대해 실행되었으며, 총 수십만 개의 프레임이 수집되었다. 데이터는 TSV 파일로 샤딩되어 트레이스 단위 디렉터리에 저장되며, 쿼리·문서·설명 각각을 독립적으로 접근할 수 있다.
내재적 특성으로는 ‘추적 가능성(traceability)’, ‘완전성(completeness)’, ‘다양성(diversity)’을 강조한다. 외재적 특성으로는 ‘최적화 가능성(optimisability)’, ‘평가 가능성(assessability)’, ‘상호 운용성(interoperability)’, ‘확장성(extensibility)’을 제시한다. 특히, 데이터와 수집 파이프라인을 오픈소스로 공개함으로써 연구자들이 새로운 에이전트·리트리버·도메인으로 손쉽게 확장할 수 있게 설계되었다.
이러한 데이터셋은 기존 인간 로그 기반 벤치마크와는 달리, 에이전트가 실제 운영 환경에서 보이는 검색 행동을 그대로 반영한다. 따라서 캐시 정책 재설계, 쿼리 예측 모델링, 에이전트‑중심 평가 메트릭 개발 등 새로운 연구 주제에 바로 적용 가능하다. 또한, 에이전트가 생성한 ‘생각(thought)’ 텍스트는 검색‑생성 연계 메커니즘을 해석하는 데 귀중한 메타데이터가 된다.
결론적으로, ASQ는 에이전트‑주도 검색 시대에 IR 연구가 필요로 하는 핵심 데이터 인프라를 제공한다. 향후 연구는 이 데이터를 활용해 에이전트 행동 모델링, 효율적 멀티‑턴 검색 전략, 그리고 인간‑에이전트 협업 시나리오를 탐색할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기