AI 에이전트가 데이터 질문에 답할 수 있을까? 데이터 에이전트 벤치마크

AI 에이전트가 데이터 질문에 답할 수 있을까? 데이터 에이전트 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

기업 현장에서 AI 에이전트를 이용해 자연어로 데이터 질의를 수행하려는 요구가 급증하고 있다. 그러나 실제 데이터는 여러 DBMS에 분산되고, 키 형식이 일관되지 않으며, 텍스트 필드에 중요한 정보가 숨겨져 있어 기존 텍스트‑투‑SQL·테이블 QA 벤치마크로는 평가가 어렵다. 본 논문은 이러한 현실을 반영한 Data Agent Benchmark(DAB)를 제안하고, 5개 최신 LLM 기반 에이전트를 54개의 복합 질의에 대해 평가한다. 최고 모델인 Gemini‑3‑Pro조차도 pass@1이 38%에 불과해 현재 기술 수준의 한계를 명확히 보여준다.

상세 분석

본 연구는 데이터 에이전트가 직면한 네 가지 핵심 난관을 체계적으로 도출하고, 이를 벤치마크 설계에 반영했다. 첫째, 다중 DBMS 통합은 서로 다른 쿼리 언어와 스키마를 가진 데이터베이스를 동시에 조회해야 하는 상황을 의미한다. 기존 텍스트‑투‑SQL 연구는 단일 RDBMS에 국한돼 이러한 복합성을 다루지 못한다. 둘째, 형식이 맞지 않는 조인 키는 동일 엔터티를 나타내는 식별자가 DB마다 접두사, 공백, 약어 등으로 달라지는 경우로, 에이전트가 사전 처리 없이 직접 조인하면 오류가 발생한다. 셋째, 비구조화 텍스트 변환은 텍스트 필드에 내포된 날짜, 금액, 버전 번호 등을 추출·정규화해야 하는 작업이다. 논문에서는 현재 에이전트가 정규표현식에 의존하고 있어, 의미론적 추출이나 LLM 기반 파싱이 부족함을 확인했다. 넷째, 도메인 지식은 데이터 자체만으로는 답을 도출할 수 없고, 비즈니스 규칙이나 산업별 정의가 필요함을 의미한다. 예를 들어 주식 변동성을 계산할 때는 배당·주식분할을 반영한 조정 종가를 사용해야 한다.

벤치마크 구축 과정은 12개의 공개 데이터셋을 선택하고, 각 데이터셋을 최소 두 개 이상의 DBMS(PostgreSQL, MongoDB, SQLite, DuckDB)로 분산시킨 뒤, 위 네 가지 난관을 인위적으로 삽입하는 방식으로 진행되었다. 조인 키 변형, 텍스트 필드 재구성, 불필요한 컬럼 제거 등은 모두 자동화 파이프라인과 수작업 검증을 병행해 deterministic한 정답을 확보했다. 결과적으로 DAB는 54개의 자연어 질의와 12개의 데이터셋, 9개의 도메인, 4개의 DBMS 조합을 포함해 기존 벤치마크와 규모가 비슷하면서도 복합성을 크게 높였다.

실험에서는 GPT‑5.2, GPT‑5‑mini, Gemini‑3‑Pro, Gemini‑2.5‑Flash, Kimi‑K2 다섯 모델을 ReAct 기반 에이전트 프레임워크에 탑재해 50회 반복 실행 후 pass@k를 측정했다. Gemini‑3‑Pro가 38%의 pass@1을 기록했지만, pass@50에서도 69%를 넘지 못했다. 특히 한 데이터셋은 모든 모델이 한 번도 정답을 도출하지 못했다. 오류 분석 결과, **계획 단계 오류(85%)**가 가장 큰 원인이었으며, 이는 스키마 탐색·조인 전략 수립이 부실했기 때문이다. 반면, 잘못된 데이터 소스 선택은 드물었고, 텍스트 추출에 정규표현식만 사용한 점이 한계로 지적되었다.

이러한 결과는 두 가지 실용적 시사점을 제공한다. 첫째, 에이전트는 스키마 탐색과 데이터 탐색을 균형 있게 수행해야 한다; 과도하거나 부족한 탐색은 모두 성능 저하를 초래한다. 둘째, 추출 도구의 다양화가 필요하다. 현재는 정규표현식에 의존하지만, LLM 기반 텍스트 파싱, 엔터티 인식, 의미론적 검색 등 고급 프리프로세싱이 도입되면 조인 키 정규화와 비구조화 텍스트 변환에서 큰 개선을 기대할 수 있다. 또한, 도메인 지식을 사전 모델링하거나 외부 지식 그래프와 연계하는 방법도 고려할 만하다.

마지막으로, 논문은 PromptQL이라는 상용 데이터 에이전트를 동일 모델에 적용해 ReAct 베이스라인 대비 pass@1을 7%p 향상시켰지만, 여전히 비구조화 텍스트 추출 질의에서는 0% 성공률을 보였다는 점을 강조한다. 이는 향후 연구가 텍스트-구조 변환도메인‑특화 로직에 집중해야 함을 명확히 보여준다.


댓글 및 학술 토론

Loading comments...

의견 남기기