신뢰성과 유연성을 겸비한 다중 에이전트 테이블 QA 프레임워크

신뢰성과 유연성을 겸비한 다중 에이전트 테이블 QA 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MATA는 소형 LLM 도구와 대형 LLM 에이전트를 결합해 표 기반 질문에 대해 다양한 추론 경로(텍스트, 코드, SQL)를 동시에 생성하고, 스케줄러와 신뢰도 검사기로 불필요한 호출을 최소화한다. 이를 통해 오픈소스 모델에서도 최신 상용 LLM 수준의 정확도를 달성하면서 추론 비용을 크게 절감한다.

상세 분석

본 논문은 TableQA 시스템이 직면한 세 가지 핵심 문제—모델 의존성, 과도한 LLM 호출, 단일 추론 방식의 한계—를 동시에 해결하고자 한다. 첫 번째로 MATA는 ‘툴(tool)’과 ‘에이전트(agent)’를 명확히 구분한다. 툴은 500M 이하의 경량 모델로 구현돼 Scheduler, Confidence Checker, Format Matcher 로 구성된다. Scheduler는 입력 테이블과 질문의 메타 정보를 기반으로 PoT(Program‑of‑Thought)와 text2SQL 중 어느 경로를 먼저 실행할지 확률적으로 판단한다. 이때 MobileBERT + MLP(총 24.65 M 파라미터)로 구현돼 빠른 추론을 보장한다. 두 번째로 에이전트는 3 B 이상 규모의 LLM을 사용해 실제 추론을 수행한다. CoT Agent는 순수 텍스트 기반 체인‑오브‑생각을, PoT Agent와 text2SQL Agent는 각각 파이썬 코드와 SQL 쿼리를 생성한다. 코드 생성 후에는 각각 Python Debug Agent와 SQL Debug Agent가 최대 N=3번까지 반복 디버깅을 수행해 실행 오류를 최소화한다. 세 번째로 Confidence Checker(DeBERTaV3‑large, 435 M 파라미터)는 세 추론 경로에서 도출된 후보 답변에 신뢰도 점수를 부여한다. 점수가 사전 정의된 임계값 θ(=0.1) 이상이면 Judge Agent 호출을 생략하고 최고 점수 후보를 최종 답변으로 채택한다. 점수가 낮을 경우 Judge Agent가 전체 후보와 신뢰도 정보를 종합해 최종 선택을 수행한다. 마지막으로 Format Matcher(qwen2.5‑instruct, 0.5 B 파라미터)는 100자 이상으로 과도하게 길어진 답변을 간결한 엔터티 형태로 변환한다. 이러한 모듈 간 협업은 “다중 경로 + 선택적 검증”이라는 새로운 패러다임을 만든다. 실험에서는 WikiTQ, TabMWP 등 난이도 차이가 큰 두 벤치마크에 10종류의 LLM(소형 ~ 대형, 오픈소스·상용)으로 평가했으며, 기존 최강 baselines 대비 Exact Match 40.1%, Fuzzy Match 46.7%, Token‑level F1 33.1%의 절대적 향상을 기록했다. 특히 작은 7 B 파라미터 모델에서도 경쟁력 있는 성능을 보였으며, 평균 LLM 호출 횟수는 기존 Self‑Consistency 방식 대비 45% 이상 감소했다. 논문은 또한 Scheduler와 Confidence Checker를 위한 대규모 라벨링 데이터(173 664 샘플)를 공개해 향후 연구 재현성을 높였다. 전반적으로 MATA는 모델‑중립적인 설계, 비용‑효율적인 추론 스케줄링, 그리고 다중 추론 경로의 상호 보완성을 통해 TableQA 분야에서 실용적·학술적 가치를 동시에 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기