에이전트 검색 행동 분석: 1400만 실시간 요청에서 본 의도와 전개 패턴
초록
본 논문은 DeepResearchGym에서 수집한 1,444만 건의 검색 요청(3,970만 세션)을 기반으로 LLM 기반 에이전트 검색의 세션 구조와 의도, 단계별 쿼리 변형을 분석한다. 새로운 지표인 CTAR(Context‑driven Term Adoption Rate)을 도입해 새롭게 등장한 쿼리 용어가 이전에 검색된 증거와 얼마나 연관되는지를 정량화하였다. 결과는 대부분의 다중 턴 세션이 10단계 이하이며, 단계 간 간격이 1분 미만인 경우가 89%에 달함을 보여준다. 의도별 행동 차이도 뚜렷하게 나타나며, 사실 탐색 세션은 반복성이 높고, 추론 중심 세션은 탐색 폭이 넓다. 새 용어의 54%가 이전 증거에 기반함을 확인함으로써, 에이전트 검색 시스템 설계 시 반복 인식 조기 종료, 의도 맞춤형 검색 예산, 그리고 교차 단계 컨텍스트 추적이 필요함을 제안한다.
상세 분석
이 연구는 에이전트 기반 검색이 실제 운영 환경에서 어떻게 전개되는지를 대규모 로그 데이터를 통해 정량적으로 파악한 최초 사례라 할 수 있다. 먼저 저자들은 DeepResearchGym이라는 오픈소스 검색 API에 대한 6개월간의 로그를 수집했으며, 총 14.44 M개의 요청을 3.97 M개의 세션으로 세분화하였다. 세션화 과정에서는 전통적인 시간 기반 임계값(30분) 대신, IP 별 활성 세션에 대해 의미적 연속성 점수를 계산하고 10분 이상의 간격을 하드 컷오프로 적용함으로써 에이전트의 빠른 병렬 요청 특성을 반영하였다.
세션 수준 의도 라벨링은 LLM‑as‑judge 파이프라인을 활용해 기존 정보 탐색 의도 분류 체계(예: 사실 탐색, 추론, 탐색 등)와 매핑하였다. 단계별 쿼리 변형 라벨링 역시 동일한 LLM 기반 모델을 사용해 ‘추가’, ‘삭제’, ‘수정’, ‘동일’ 등으로 구분하였다. 이러한 라벨링은 대규모 자동화가 가능하면서도 인간 전문가와의 검증을 통해 신뢰성을 확보했다.
핵심 기여 중 하나인 CTAR(Context‑driven Term Adoption Rate)은 새롭게 등장한 쿼리 용어가 이전 단계에서 검색된 문서 텍스트(제목, 스니펫, 본문)와 얼마나 lexical하게 일치하는지를 측정한다. 구체적으로, 각 단계 k에서 새 용어 집합 Tₖ를 추출하고, 이전 단계 1…k‑1의 누적 증거 텍스트 C₁…k₋₁에 대해 n‑gram 매칭을 수행한다. 매칭된 용어 비율을 CTARₖ로 정의하고, 세션 전체 평균을 구함으로써 증거 재사용 정도를 정량화한다. 결과는 평균 CTAR이 0.54, 즉 새 용어의 절반 이상이 이전 증거에 기반함을 보여준다. 특히, 최근 단계(K‑1)만이 아니라 더 오래된 단계(예: K‑3, K‑5)에서도 의미 있는 기여가 관찰돼, 에이전트가 장기 컨텍스트를 활용한다는 점을 시사한다.
행동 패턴 분석에서는 (1) 다중 턴 세션의 90%가 10단계 이하이며, (2) 단계 간 평균 인터벌이 30초 수준으로 매우 짧아 실시간 피드백 루프가 존재함을 확인했다. 의도별 차이는 사실 탐색 세션이 반복률이 0.68로 가장 높고, 시간이 지날수록 동일 쿼리 재사용이 증가하는 반면, 추론·복합 의도 세션은 새로운 용어 도입률이 0.42로 상대적으로 높아 탐색 폭이 넓었다. 또한, 검색 깊이(num_of_docs) 파라미터는 세션 전반에 걸쳐 거의 변하지 않아 에이전트가 초기 설정값을 고정적으로 사용한다는 점을 발견했다.
이러한 정량적 통찰은 실제 시스템 설계에 직접적인 시사점을 제공한다. 첫째, 높은 반복성을 보이는 사실 탐색 세션에 대해 ‘반복 인식 조기 종료(early stopping)’ 메커니즘을 도입하면 불필요한 검색 비용을 절감할 수 있다. 둘째, 의도에 따라 검색 예산(문서 수, ANN 복잡도)을 동적으로 조정하는 ‘의도 맞춤형 예산 할당’ 전략이 효율성을 높인다. 셋째, CTAR 결과가 시사하듯, 에이전트가 장기 컨텍스트를 활용하도록 ‘교차 단계 컨텍스트 트래킹’ 모듈을 설계하면 쿼리 재작성의 품질을 향상시킬 수 있다. 마지막으로, 저자들은 익명화된 로그 데이터를 Hugging Face에 공개함으로써 향후 연구자들이 재현 및 확장 연구를 수행할 수 있는 기반을 마련했다.
댓글 및 학술 토론
Loading comments...
의견 남기기