데이터베이스 자동 탐색을 위한 다중 에이전트 시스템 DAR
초록
DAR는 구글 빅쿼리 내 네이티브 생성형 AI 함수를 활용해, 인간의 명시적 질의 없이 데이터베이스를 스스로 탐색·분석하고 보고서를 자동 생성하는 계층형 다중‑에이전트 프레임워크이다. 실험에서는 26개의 자산·사고 테이블을 16분 만에 분석해, 전문가가 8.5시간 걸리는 작업을 32배 가속화하였다.
상세 분석
본 논문은 기존 텍스트‑투‑SQL 시스템이 ‘반응형’에 머무르는 한계를 지적하고, 데이터베이스 탐색을 ‘주도형’으로 전환하기 위한 DAR(Data Agnostic Researcher) 시스템을 제안한다. DAR는 초기화‑실행‑합성의 3계층 구조를 갖으며, 각 계층은 전용 에이전트 집합으로 구현된다. 초기화 계층에서는 연구 의도 추론과 메타데이터 추출을 담당하는 Research Initiator(ARI)와 Meta Extractor, Plan Generator가 협업해 스키마 정보를 구조화하고 실행 계획을 수립한다. 실행 계층은 Query Understanding(AQU), Query Generation(AQG), Query Execution(AQE), Query Review(AQR) 네 에이전트가 순차적으로 작동하며, AI.GENERATE, AI.GENERATE_BOOL 등 빅쿼리 네이티브 LLM 함수를 SQL에 삽입해 데이터 내부에서 바로 텍스트 요약·분류·표 생성 등을 수행한다. 결과 검증 단계에서는 “Result ≠ empty ∧ Error = ∅” 조건을 만족할 때만 다음 단계로 진행한다. 합성 계층은 Structure Planner(ASP), Scratch Research(ASR), Revision(ARV), Report Composer(ARC) 로 구성돼, 보고서 구조 설계 → 초안 작성 → 품질 점수 기반 재작성 → 최종 마크다운 출력 순으로 진행한다. 품질 점수 θ를 초과하면 Escalation Checker가 보고서를 승인하고, 미달이면 ARV에게 반환한다.
DAR의 핵심 기술적 기여는 (1) 명시적 질의 없이 연구 질문을 자동 생성·분해하는 계층형 멀티‑에이전트 설계, (2) 외부 API 호출을 배제하고 빅쿼리 내부 LLM 함수를 활용해 데이터 이동을 최소화함으로써 보안·지연을 크게 개선, (3) 반복적 검증·수정 루프를 통해 인간 개입 없이도 신뢰성 있는 결과와 보고서를 산출한다는 점이다. 실험에서는 26개의 자산·사고 레코드(총 19개 속성)와 두 개 테이블 간 조인을 포함한 복합 분석 과제를 제시했다. DAR는 전체 파이프라인을 16분 내에 완료했으며, 인간 분석가가 동일 작업을 수행하는 데 8.5시간이 소요돼 약 32배 속도 향상을 보였다. DAR가 도출한 인사이트는 “고위험 자산군에서 특정 지역·시간대에 사고 발생 빈도 상승” 등 패턴 기반 권고사항이며, 정량적 검증 결과(결과 비어 있지 않음, 오류 없음)와 품질 점수(θ = 0.8 이상) 모두 만족하였다. 다만, 인간 전문가가 제공하는 도메인‑특화 해석·전략적 판단은 아직 보완이 필요함을 인정한다.
이 논문은 클라우드 데이터 웨어하우스 내에서 완전 자동화된 탐색·분석·보고서 생성 워크플로우를 구현함으로써, 데이터 거버넌스를 유지하면서도 탐색 속도를 획기적으로 높일 수 있음을 실증한다. 향후 연구에서는 복합 멀티모달 데이터(이미지·텍스트 혼합)와 보다 복잡한 비정형 분석, 그리고 보상 기반 강화학습을 통한 에이전트 정책 최적화 등을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기