스키마 인식 에이전트 기반 저비용 NL2SQL 시스템
초록
본 논문은 작은 언어 모델(SLM)을 주된 추론 엔진으로 활용하고, 오류 발생 시에만 대형 언어 모델(LLM)을 호출하는 에이전트 기반 NL2SQL 프레임워크를 제안한다. 스키마 추출, 질의 분해, SQL 생성, 검증·실행의 네 단계로 작업을 분할하고, BIRD 벤치마크에서 47.78% 실행 정확도와 51.05% 검증 효율을 달성하면서 비용을 90% 이상 절감한다.
상세 분석
이 연구는 NL2SQL 과제에서 비용·프라이버시 문제를 해결하기 위해 ‘에이전트형’ 아키텍처를 도입했다. 시스템은 네 개의 전문화된 에이전트(추출기, 분해기, 생성기, 검증·실행기)로 구성되며, 각각이 스키마 인식 프롬프트와 증거 기반 재검색을 활용한다. 추출기는 데이터베이스 메타데이터와 문서화된 스키마 설명을 벡터 임베딩으로 통합해 질의와 가장 연관된 10개의 증거 조각을 빠르게 반환한다(임베딩 모델: all‑MiniLM‑L16‑v2, 저장소: ChromaDB). 분해기는 사용자의 자연어 질의를 엔터티, 조건, 실행 순서, 출력 형식으로 구조화된 계획으로 변환한다. 여기서는 Mistral‑7B SLM을 사용해 단계별 논리적 추론을 수행하고, 복합 조인·서브쿼리 요구를 명시적으로 파악한다. 생성기는 주 모델로 Llama‑3.1‑8B를 사용해 초기 SQL을 만든 뒤, 검증·실행 에이전트가 오류를 감지하면 GPT‑4o(LLM)에게 오류 메시지와 실패한 SQL을 전달해 재생성을 요청한다. 재시도는 최대 세 번이며, 실패 시 사용자에게 보고한다. 검증·실행 에이전트는 (1) 증거 기반 값 검증, (2) 구문·스키마 일치 검사, (3) 실행 단계 오류 탐지, (4) 결과 집합의 의미적 일관성 검증을 순차적으로 수행한다. 이러한 다중 레이어 검증은 LLM의 ‘환각’ 현상을 크게 억제한다. 실험에서는 BIRD 데이터셋(12,751 쌍, 95개 DB)에서 67%의 질의를 SLM만으로 성공시켜 평균 비용을 $0.0085로 낮췄으며, LLM‑전용 시스템($0.094) 대비 90% 이상의 비용 절감을 입증했다. 그러나 47.78%의 실행 정확도는 여전히 LLM‑중심 최신 모델에 비해 낮으며, 복잡한 다중 조인·집계 질의에서 오류가 집중되는 한계가 있다. 또한, 스키마 증거 검색과 재생성 로직이 데이터베이스 규모가 급증할 경우 검색 비용이 증가할 가능성이 있다. 향후 연구에서는 증거 검색 효율화, SLM의 파인튜닝 확대, 그리고 에이전트 간 협업 전략을 강화해 정확도와 확장성을 동시에 개선할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기