딥 리서치 에이전트의 논문 검색·분류 능력 평가
초록
본 논문은 딥 리서치 에이전트가 전문가 수준의 설문 조사에 필요한 논문을 얼마나 잘 검색하고, 이를 전문가가 만든 계층적 분류 체계에 맞게 조직할 수 있는지를 평가하는 TaxoBench 벤치마크를 제안한다. 72개의 고인용 LLM 설문 조사에서 추출한 3,815편 논문과 14,000여 개 카테고리 트리를 기반으로, 논문 검색 정확도와 계층 구조 일치를 측정하는 새로운 메트릭(US‑TED/US‑NTED, Sem‑Path)을 도입하였다. 실험 결과, 현재 최고 에이전트는 전문가가 인용한 논문의 20.9%만을 회수하고, 완벽한 입력에도 계층 구조 일치 점수는 31% 수준에 머무른다.
상세 분석
TaxoBench은 딥 리서치 에이전트가 설문 조사 자동화 과정에서 겪는 두 가지 핵심 과제—핵심 논문 검색과 전문가 수준의 계층적 조직—를 정량적으로 측정하도록 설계되었다. 데이터셋은 8개 연구 분야에 걸친 72개의 고인용 LLM 설문을 선정하고, 각 설문에서 전문가가 직접 제시한 taxonomy 트리를 수작업으로 추출해 3,815편의 논문을 14.0개의 평균 카테고리(총 14,000여 개 노드)로 매핑하였다. 이렇게 구축된 ground‑truth는 논문‑카테고리 매핑뿐 아니라 내부 노드 간의 부모‑자식 관계까지 포함한다는 점에서 기존 클러스터링 기반 벤치마크와 차별화된다.
평가 프로토콜은 두 가지 모드로 나뉜다. Deep Research 모드에서는 에이전트가 주제 키워드만을 입력받아 웹 검색·논문 수집·taxonomy 구축까지 전 과정을 수행하도록 하여, 검색 단계에서의 Recall, Precision, F1을 측정한다. Bottom‑Up 모드에서는 전문가가 선정한 논문 집합을 그대로 제공하고, 모델이 이를 어떻게 계층적으로 조직하는지만을 평가한다.
조직 성능 평가는 leaf‑level와 hierarchy‑level 두 층위로 구분된다. leaf‑level에서는 Adjusted Rand Index(ARI)와 V‑Measure를 사용해 논문‑카테고리 할당 정확도를 측정한다. 그러나 이러한 평면 지표는 형제 카테고리 간 혼동과 같은 구조적 오류를 구분하지 못한다. 이를 보완하기 위해 저자들은 Unordered Semantic Tree Edit Distance(US‑TED)와 그 정규화 버전인 US‑NTED, 그리고 Semantic Path Similarity(Sem‑Path)를 제안한다. US‑TED는 트리 편집 거리 계산 시 형제 노드 순서를 무시하고, 라벨 간 의미적 유사도(cosine 기반)로 교체 비용을 정의한다. Sem‑Path는 각 논문의 루트‑리프 경로를 비교해 경로 수준의 의미 일치를 정량화한다. 이러한 메트릭은 구조적 일치와 의미적 일치를 동시에 포착한다는 장점이 있다.
실험에서는 7개의 최신 딥 리서치 에이전트와 12개의 최첨단 LLM을 평가했다. Deep Research 모드에서 최고 성능을 보인 에이전트조차 전문가가 인용한 논문의 20.92%만을 회수했으며, Bottom‑Up 모드에서도 가장 좋은 모델이 ARI 31.24%에 불과했다. US‑NTED와 Sem‑Path 점수 역시 0.28~0.29 수준으로, 모델들이 계층적 의미 추론에 공통적인 한계를 가지고 있음을 시사한다. 오류 분석 결과, 대부분의 실수는 (1) 핵심 논문 누락, (2) 논문을 부적절한 형제 카테고리로 배치, (3) 하위 트리 전체를 잘못된 상위 카테고리로 이동시키는 형태로 나타났다.
이 논문은 딥 리서치 에이전트가 현재 설문 자동화에서 겪는 ‘합성 격차’를 명확히 드러내며, 향후 연구가 검색 정확도 향상뿐 아니라 계층적 의미 구조 학습에 집중해야 함을 강조한다. 또한 TaxoBench과 제안된 메트릭은 향후 LLM 기반 지식 정리 시스템의 평가 표준으로 활용될 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기