노트북RAG: 다중 노트북 활용으로 EDA 자동 생성 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

NotebookRAG는 사용자 의도와 데이터셋, 기존 분석 노트북을 입력으로 받아 관련 코드 셀을 실행 가능한 컴포넌트로 변환·주석화하고, 이를 재사용해 최신 시각화와 인사이트를 자동 생성하는 RAG 기반 EDA 시스템이다. 사용자 연구와 실험을 통해 기존 자동 EDA 도구보다 품질·목표 정렬성이 크게 향상됨을 입증한다.

상세 분석

NotebookRAG는 기존 노트북을 정적 문서가 아니라 실행 가능한 지식 원천으로 재해석한다. 먼저 노트북을 코드 셀과 마크다운 셀로 분리하고, 각 코드 셀을 AST 기반 정적 분석으로 파싱한다. 파싱 과정에서 사용된 데이터 컬럼, 호출된 시각화 함수, 차트 유형 등을 메타데이터로 추출하고, 이를 ‘실행 가능한 컴포넌트’ 형태로 래핑한다. 이렇게 생성된 컴포넌트는 데이터 스키마와 매핑되어, 새로운 데이터셋에 대해 재실행이 가능하도록 설계된다.

사용자 의도는 자연어로 입력되며, 시스템은 의도를 다중 EDA 쿼리(예: “지역별 평균 가격 시계열 확인”)로 변환한다. 변환된 쿼리는 컬럼 기반 인덱스를 활용해 관련 컴포넌트를 검색하고, 검색된 컴포넌트를 새로운 데이터에 재실행해 최신 시각화와 통계 결과를 얻는다. 재실행된 결과는 자동으로 마크다운 설명과 결합되어, 기존 노트북의 해석적 가치를 유지하면서 최신 정보를 제공한다.

생성 단계에서는 ‘에이전트’가 LLM을 기반으로 작동한다. 에이전트는 (1) 검색된 컴포넌트와 사용자 의도를 종합해 전체 EDA 플랜을 설계하고, (2) 각 단계에 필요한 코드와 설명을 순차적으로 작성한다. 특히 시각화 인사이트는 VLM(비전‑언어 모델)과 전통적인 통계 검증을 결합한 하이브리드 방식으로 추출한다. VLM이 차트 이미지를 텍스트로 변환하고, LLM이 이를 검증·보강해 통계적 유의성을 확인함으로써 hallucination을 최소화한다.

평가에서는 24명의 참여자를 대상으로 Kaggle 데이터셋과 실제 데이터 마이닝 과제를 사용해 within‑subject 실험을 진행했다. 비교 대상은 ChatGPT Data Analyst 플러그인, 기존 베이스라인 노트북 생성기, 일반 RAG 검색기였다. 결과는 NotebookRAG가 전반적인 품질, 의도 정렬성, 시각화 적합성에서 유의하게 높은 점수를 받았으며, 정성적 피드백에서도 재사용 가능성과 분석 깊이에 대한 긍정적인 의견이 다수였다.

핵심 기여는 (1) 실행 가능한 컴포넌트 기반 노트북 검색 기법, (2) 검색 결과를 활용한 LLM 에이전트 설계, (3) 사용자 의도와 데이터 변화를 동시에 고려한 자동 EDA 파이프라인이다. 제한점으로는 검색 대상 노트북의 품질 의존성, 컬럼 매핑 오류 가능성, VLM 기반 인사이트 추출 시 여전히 남는 오류 등이 제시되었다.

노트북RAG: 다중 노트북 활용으로 EDA 자동 생성 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기