드벤치: 딥 리서치 에이전트 평가를 위한 다차원 벤치마크
초록
드벤치(Dr.Bench)는 딥 리서치 에이전트(DRA)의 보고서형 출력 능력을 종합적으로 평가하기 위해 214개의 고난이도 과제를 10개 도메인에 걸쳐 구성한 다차원 벤치마크이다. 각 과제는 질의‑특정 루브릭(QSR), 일반‑보고서 루브릭(GRR), 신뢰성 있는 출처 링크(TSL), 포커스‑앵커 키워드(FAK), 포커스‑편차 키워드(FDK) 등 5가지 모듈로 이루어진 레퍼런스 번들을 제공한다. 평가 지표는 의미 품질, 주제 초점, 출처 신뢰성을 동시에 고려한 복합 점수 체계를 사용한다. 실험 결과, 기존 DRA가 웹 검색 도구를 결합한 추론 모델보다 전반적인 수행 능력과 보고서 품질에서 우수함을 확인했지만, 여전히 구조적 일관성·출처 검증·다중 단계 추론 등에서 개선 여지가 있음을 보여준다.
상세 분석
드벤치는 딥 리서치 에이전트가 수행해야 하는 ‘과제 분해 → 다원 출처 검색 → 다단계 추론 → 정보 통합 → 구조화된 보고서 작성’이라는 전체 파이프라인을 평가 대상으로 삼는다. 이를 위해 214개의 과제를 10개 분야(학술·연구, 뉴스·시사, 스포츠·경기 등)로 균등하게 배분하고, 각 과제마다 인간 전문가가 설계한 레퍼런스 번들을 제공한다. 레퍼런스 번들은 QSR(질의‑특정 루브릭)과 GRR(일반‑보고서 루브릭)이라는 두 단계의 평가 기준을 포함한다. QSR은 사실 정확성, 논리 타당성, 메커니즘 설명 등 8가지 이상의 세부 항목을 이진·삼진 점수로 매긴다. GRR은 구조적 완전성, 논리적 명료성, 내용 깊이, 인용·출처 신뢰성, 독창성·통찰, 데이터 활용·분석 엄밀성, 포맷 일관성 등 7가지 차원을 48개의 루브릭으로 평가한다.
출처 신뢰성 평가는 TSL(신뢰할 수 있는 출처 링크)과 FAK/FDK(포커스‑앵커·편차 키워드)로 구현된다. FAK는 보고서가 핵심 주제에 집중했는지를 확인하는 키워드 집합이며, FDK는 불필요하거나 벗어난 내용이 포함되었는지를 탐지한다. 이러한 키워드 기반 검증은 기존의 문자열 매칭이나 단순 유사도 점수보다 의미적 일관성을 더 정밀하게 측정한다.
평가 메트릭은 통합 점수식 IntegratedScore = Quality × (1 − SemanticDrift) × TrustBoost × FAK × FDK 로 정의된다. 여기서 Quality는 QSR·GRR 점수의 가중 평균, SemanticDrift는 LLM 기반 판별기의 의미 편차 점수, TrustBoost은 TSL·FAK·FDK의 조합으로 계산된 신뢰성 보정값이다. 이 식은 의미 품질, 주제 초점, 출처 신뢰성을 동시에 고려해 점수를 산출함으로써, 단일 차원 평가지표가 놓치기 쉬운 오류를 포괄한다.
실험에서는 5개의 대표적인 DRA(예: Alibaba TonYgi DeepResearch, xAI Grok Deep Search 등)와 1개의 고성능 에이전트 모델, 7개의 웹 검색 도구를 결합한 추론 모델을 비교하였다. 결과는 DRA가 전체 점수에서 평균 12%~18% 높은 성과를 보였으며, 특히 GRR의 구조·논리 항목에서 우수함을 확인했다. 그러나 QSR의 사실 정확성·메커니즘 설명 부분에서는 여전히 20% 내외의 오류가 발생했으며, 출처 신뢰성 점수에서도 일부 TSL이 최신 정보를 반영하지 못하는 문제가 드러났다.
이 논문은 DRA 평가에 필요한 다차원적 기준을 체계화했지만, 자동화된 채점기의 신뢰성, 레퍼런스 번들의 확장성, 그리고 도메인 특화 평가 항목의 추가 필요성 등 몇 가지 한계도 제시한다. 향후 연구에서는 평가 자동화를 위한 메타러닝 기반 판별기 개발, 실시간 출처 검증 메커니즘 도입, 그리고 사용자 피드백을 반영한 루브릭 업데이트 프로세스가 요구된다.
댓글 및 학술 토론
Loading comments...
의견 남기기