기업용 자연어 인터페이스를 위한 RAG 기반 SQL·API 자동 생성 평가

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 SAP Transactional Banking 도메인을 실제 사례로 삼아, 표준 RAG, Self‑RAG, CoRAG 세 가지 Retrieval‑Augmented Generation 변형을 SQL 질의와 REST API 호출 생성, 그리고 두 작업을 동시에 수행해야 하는 복합 태스크에 적용해 18가지 실험을 수행하였다. 631개의 검증된 테스트 케이스를 구축하고, 정확도, 구성 요소 일치도, 실행 성공률 등 다섯 가지 지표로 평가한 결과, 검색 없이 LLM만 사용할 경우 정확도가 0%였으며, RAG 적용 시 실행 정확도가 최대 79.30%까지 상승하였다. 특히 하이브리드 문서 환경에서는 CoRAG가 가장 높은 성능을 보였으며, 복합 태스크에서 기존 RAG 대비 10.29% 대비 7.45%의 정확도 향상을 기록하였다.

상세 분석

이 연구는 기업 시스템에서 자연어 기반 코드 생성이 직면한 두 가지 핵심 문제—도메인 지식 부족과 작업 유형의 다변성을 동시에 해결하려는 시도이다. 먼저, 기존 텍스트‑투‑SQL·API 벤치마크가 각각의 작업을 별도 데이터셋으로 다루어 왔던 점을 지적하고, 두 작업을 하나의 통합 데이터셋으로 결합한 점이 가장 큰 혁신이다. 631개의 사례는 자동 생성‑인간 검증‑실제 실행 검증 과정을 거쳐 품질을 확보했으며, 이는 향후 연구에 바로 활용 가능한 공개 리소스로서 가치가 크다.

세 가지 RAG 변형의 설계 차이를 정밀히 비교했다. 표준 RAG는 단일 프롬프트에 top‑5 문서 청크를 삽입하는 가장 기본적인 방식이며, Self‑RAG는 LLM이 각 청크의 관련성을 스스로 판단해 불필요한 정보를 필터링한다. CoRAG는 질문을 서브쿼리로 분해하고, 단계별로 추가 검색을 수행해 필요한 정보를 점진적으로 확보한다는 점에서 가장 복잡하지만, 하이브리드(데이터베이스+API) 문서 환경에서 뛰어난 견고성을 보여준다. 특히 CoRAG는 “쿼리 분해 → 재검색 → 종합” 루프를 통해 SQL 생성 시 15.32%의 정확도를 달성했으며, 이는 표준 RAG의 11.56%보다 유의미하게 높다.

실험 결과는 RAG의 필요성을 강력히 증명한다. 검색 없이 LLM만 사용했을 때는 정확도가 0%에 머물렀지만, RAG 적용 시 실행 정확도가 70% 이상으로 급상승했다. 이는 LLM이 도메인 스키마와 API 스펙을 실시간으로 참조함으로써 hallucination을 크게 억제한다는 것을 의미한다. 또한, 문서 유형이 혼합된 상황에서 CoRAG가 가장 높은 정확도와 실행 성공률을 기록했으며, 이는 복합적인 기업 문서 구조를 다룰 때 단순 top‑k 검색보다 동적 질의 분해가 효과적임을 시사한다.

통계적 검증을 위해 모든 정확도 차이에 대해 paired t‑test를 수행했으며, p‑값이 0.05 이하인 경우를 유의미한 개선으로 보고 있다. 특히 CoRAG와 표준 RAG 간의 복합 태스크 정확도 차이는 p < 0.01로 매우 유의미했다.

이 논문은 RAG 정책 설계가 엔터프라이즈 수준 자연어 인터페이스의 핵심 결정 요인임을 실증적으로 보여준다. 향후 연구에서는 다중 턴 대화, 실시간 실행 피드백 루프, 그리고 다른 도메인(예: 제조, 헬스케어)으로의 일반화가 필요하다. 또한, 현재 사용된 GPT‑5와 OpenAI 임베딩 모델이 상용화된 최신 모델과 동일한 성능을 보장하는지는 추가 검증이 요구된다.

기업용 자연어 인터페이스를 위한 RAG 기반 SQL·API 자동 생성 평가

초록

상세 분석

댓글 및 학술 토론

의견 남기기