소형 언어 모델을 위한 다중 에이전트 기반 Text2SQL 프레임워크 MATS

초록

MATS는 소형 언어 모델(SLM)의 한계를 극복하기 위해 다중 에이전트 구조와 실행 피드백 기반 강화학습을 도입한 Text2SQL 시스템이다. 보조 에이전트가 역할을 분담해 작업 부하를 감소시키고, 실행 결과를 보상 신호로 활용해 각 에이전트를 정렬한다. 벤치마크 실험에서 단일 GPU 환경의 소형 모델로도 대형 LLM 수준의 정확도를 달성했으며, 코드와 데이터가 공개되어 재현 가능성을 확보한다.

상세 요약

본 논문은 최근 LLM이 Text2SQL 분야에서 보여준 뛰어난 성능에도 불구하고, 기업 환경에서 외부 API 사용이 비용·프라이버시 측면에서 제한적이라는 현실적 문제를 제기한다. 이를 해결하고자 저자들은 소형 언어 모델(SLM)을 기반으로 하면서도 대형 모델에 근접한 성능을 끌어내는 새로운 프레임워크 MATS를 설계하였다. 핵심 아이디어는 “다중 에이전트” 접근법이다. MATS는 기본 SLM 외에 여러 보조 에이전트를 두어 각각 ‘질문 이해’, ‘스키마 매핑’, ‘쿼리 조립’, ‘후처리 검증’ 등 특화된 역할을 수행하도록 한다. 이렇게 역할을 분리하면 각 에이전트가 담당 영역에 집중할 수 있어 모델 파라미터가 제한된 상황에서도 복잡한 논리 흐름을 효과적으로 처리한다.

또한 학습 단계에서 저자들은 “실행 피드백 기반 강화학습(RLHF)”을 적용한다. 생성된 SQL을 실제 데이터베이스에 실행하고, 성공 여부·실행 결과 차이를 보상으로 사용한다. 이때 보상 함수는 구문 오류, 실행 오류, 결과 정확도 등을 종합적으로 고려한다. 강화학습은 정책 그라디언트 방식으로 각 에이전트의 파라미터를 업데이트하며, 에이전트 간 상호작용을 촉진하기 위해 공동 보상(shared reward) 메커니즘을 도입한다. 결과적으로 에이전트들은 서로의 출력을 피드백으로 활용해 점진적으로 협업 전략을 최적화한다.

실험에서는 Spider, WikiSQL 등 대표적인 Text2SQL 벤치마크를 사용하였다. MATS는 7B 파라미터 규모의 오픈소스 LLM을 기반으로 했음에도 불구하고, 동일 조건의 대형 모델(예: GPT‑4)과 비교해 1~2% 수준의 정확도 차이만 보였다. 특히 복잡한 조인·서브쿼리가 포함된 샘플에서 기존 SLM 기반 단일 에이전트 방식보다 현저히 높은 성공률을 기록했다. 또한 학습 및 추론 모두 단일 RTX 3090 GPU에서 수행 가능해 실용적인 배포가 용이함을 입증했다.

한계점으로는 보조 에이전트 설계가 도메인에 따라 수작업으로 조정될 필요가 있다는 점과, 강화학습 단계에서 실행 피드백을 얻기 위한 데이터베이스 접근 권한이 요구된다는 점을 들 수 있다. 향후 연구에서는 자동화된 역할 할당 메커니즘과, 시뮬레이션 기반 피드백 생성 기법을 통해 이러한 제약을 완화할 여지가 있다.

전반적으로 MATS는 소형 모델의 한계를 다중 에이전트와 실행 피드백 강화학습이라는 두 축으로 보완함으로써, 비용·프라이버시를 중시하는 기업 환경에서도 고성능 Text2SQL 솔루션을 구현할 수 있음을 보여준다.

초록

상세 요약

📜 논문 원문 (영문)