텍스트 집합에서 전체 찾기 완전성 기반 집계 질의 벤치마크와 에이전트 방식
초록
본 논문은 비구조화된 텍스트에서 “모두 찾기”가 요구되는 집계 질의를 정의하고, 완전성을 평가할 수 있는 AGGBench 벤치마크와 Disambiguation‑Filtering‑Aggregation( DFA)이라는 모듈형 에이전트 기반 베이스라인을 제안한다. 실험 결과 DFA가 기존 RAG 및 기타 에이전트 모델에 비해 증거 회수율을 최대 5배까지 향상시킴을 보여준다.
상세 분석
이 연구는 기존 질문응답(QA) 시스템이 “하나 찾기”에 초점을 맞추는 한계를 명확히 짚고, 법률·금융·컴플라이언스 등 실제 업무에서 요구되는 “전체 찾기” 즉, 집계 질의(aggregation query)의 필요성을 강조한다. 저자들은 이를 “엔터티‑레벨 집계 질의”라는 형태로 공식화하고, 두 가지 핵심 요소(엔터티 타입 T와 조건 집합 Φ)로 문제를 구조화한다. 특히, 조건은 논리 연산자 AND/OR 로 결합된 불리언 술어이며, 각 엔터티가 해당 조건을 만족한다는 증거가 텍스트에 명시적으로 존재해야 한다는 점을 강조한다.
벤치마크 구축 과정은 세 단계로 나뉜다. 첫째, 도메인‑집중 코어 서브셋을 선정하고 빈번히 등장하는 엔터티 타입을 자동 추출한 뒤, 인간이 검증·정제한다. 둘째, 자동 LLM 라벨링과 인간 검증을 결합한 두 단계 어노테이션 파이프라인을 통해 각 엔터티‑조건 매칭을 증거와 연결한다. 셋째, 코어 서브셋에 무관한 문서를 대규모로 추가해 증거 희소성을 현실화한다. 이 과정에서 추가 문서가 새로운 정답 엔터티를 만들어내지 않도록 BM25 기반 근접도 필터링을 적용한다는 점이 실용적이다.
제안된 DFA 프레임워크는 Disambiguation, Filtering, Aggregation의 세 모듈로 구성된다. Disambiguation 단계에서는 질의의 모호성을 해소하고, 명확한 엔터티 타입·조건으로 변환한다. Filtering 단계는 증거 회수 과정에서 “완전성 인식”을 도입해, 초기 top‑k 결과에 만족하지 못하는 경우 반복적으로 재검색하고, 이미 확인된 엔터티를 메모리에 저장해 중복을 방지한다. 마지막 Aggregation 단계에서는 각 청크에서 수집된 증거를 통합·중복 제거하여 최종 엔터티 집합을 산출한다. 이러한 설계는 기존 Rank‑Then‑Read 혹은 Text‑to‑SQL 파이프라인이 갖는 “고정된 k” 제한을 회피하고, 완전성을 명시적 목표로 삼음으로써 증거 누락을 최소화한다.
실험에서는 다양한 LLM 백본(예: GPT‑3.5, Llama‑2) 위에 DFA와 기존 RAG, 그리고 다른 에이전트 기반 모델을 적용해 비교한다. 평가 지표는 “증거 회수율”(Evidence Recall)과 “정답 정확도”(Answer Accuracy)이며, DFA는 특히 증거 회수율에서 2배~5배 향상을 보인다. 오류 분석 결과, 남은 실패 원인은 주로(1) 조건의 의미적 애매성, (2) 텍스트 내 표현 다양성에 따른 필터링 오류, (3) 대규모 코퍼스에서의 중복 엔터티 식별 한계로 요약된다. 이는 DFA가 모듈화된 설계 덕분에 향후 각 단계별 개선이 용이함을 시사한다.
전체적으로 이 논문은 “전체 찾기”라는 새로운 평가 패러다임을 제시하고, 실용적인 벤치마크와 강력한 베이스라인을 제공함으로써 향후 텍스트 기반 집계 질의 연구의 토대를 마련한다는 점에서 큰 의의를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기