DeepPrep: LLM 기반 자동 데이터 준비 시스템
초록
DeepPrep은 대규모 언어 모델(LLM)을 활용해 데이터 준비 파이프라인을 자동으로 설계·실행하는 에이전시 시스템이다. 실행 결과를 실시간으로 환경에 반영하고, 트리 구조의 비선형 추론을 통해 이전 단계로 돌아가 수정할 수 있다. 단계별 피드백을 학습에 활용하는 점진적 에이전트 훈련 프레임워크와 복잡한 ADP(자동 데이터 준비) 작업을 위한 데이터 합성을 통해 높은 정확도와 15배 낮은 추론 비용을 달성한다.
상세 분석
DeepPrep은 데이터 과학 워크플로우에서 가장 비용이 많이 드는 ‘데이터 준비’ 단계에 초점을 맞춘 혁신적인 시스템이다. 기존 LLM 기반 자동화 도구는 자연어 명세를 직접 코드로 변환하지만, 중간 실행 결과를 검증하거나 수정하는 메커니즘이 부족했다. DeepPrep은 이러한 한계를 극복하기 위해 두 가지 핵심 설계를 도입한다. 첫째, ‘실행 기반 상호작용(Execution‑Grounded Interaction)’을 통해 에이전트가 생성한 변환 명령을 실제 테이블에 적용하고, 그 결과 테이블 스키마·값 변화를 즉시 피드백으로 받아다. 이 피드백은 다음 의사결정에 직접 사용되어, 예를 들어 잘못된 조인이나 중복 제거가 발생했을 때 자동으로 롤백하고 대안을 탐색한다. 둘째, 파이프라인 구성을 ‘트리 기반 에이전트 추론(Tree‑Based Agentic Reasoning)’으로 모델링한다. 각 노드는 하나의 변환 연산이며, 부모‑자식 관계를 통해 비선형적인 탐색이 가능해진다. 이렇게 하면 초기 단계에서 선택한 연산이 나중에 부적합하다고 판단될 경우, 트리 구조를 이용해 비국소적(non‑local) 수정이 용이해진다.
학습 측면에서는 ‘점진적 에이전트 훈련(Progressive Agentic Training)’ 프레임워크를 제안한다. 먼저 간단한 변환 작업(예: 결측치 제거)으로 기본 정책을 학습하고, 점차 복합적인 조인·피벗·정규화 작업을 포함한 시나리오를 추가한다. 이 과정에서 LLM은 ‘환경 시뮬레이터’를 통해 실제 테이블 상태를 관찰하고, 보상 함수는 목표 스키마와의 일치도, 실행 비용, 오류 발생 여부 등을 종합한다. 또한, 다양한 도메인과 복잡성을 갖는 ADP 태스크를 자동 생성하는 데이터 합성 파이프라인을 구축해, 모델이 드문 케이스에도 강인하게 학습되도록 했다.
실험에서는 DeepPrep을 여러 공개 데이터셋(실제 기업 데이터, Kaggle 데이터 등)과 다양한 규모의 LLM(Open‑source 14B, 7B, 3B 등)과 비교했다. 정확도 면에서는 최신 폐쇄형 모델인 GPT‑5와 거의 동등한 수준을 보였으며, 추론 비용은 15배 이상 절감했다. 특히 오픈소스 베이스라인 대비 파이프라인 완성도와 오류 복구 능력에서 현저히 우수했다. Ablation Study를 통해 트리 기반 탐색과 실행 피드백이 각각 성능에 미치는 영향을 정량화했으며, 두 요소를 결합했을 때 가장 큰 시너지 효과가 나타났다. 한계점으로는 매우 대규모 테이블(수백만 행)에서 실행 속도가 아직 최적화되지 않았으며, 복잡한 도메인‑특화 변환(예: 시계열 정규화)에서는 추가적인 도메인 지식이 필요함을 밝혔다.
전반적으로 DeepPrep은 LLM을 단순한 코드 생성기가 아니라, 실행 결과를 지속적으로 관찰·수정하며 목표 스키마에 도달하는 ‘에이전트’로 전환시킨다. 이는 데이터 준비 자동화의 효율성을 크게 높이고, 비용 효율적인 오픈소스 솔루션으로서 실무 적용 가능성을 크게 확장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기