효율적인 관계형 데이터 특성 강화와 대규모 LLM 활용

효율적인 관계형 데이터 특성 강화와 대규모 LLM 활용
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Hippasus는 기본 테이블에 외부 테이블의 특성을 자동으로 결합하는 프레임워크로, 경량 통계 지표와 대형 언어 모델(LLM)의 의미론적 추론을 결합해 조인 경로를 사전 정제하고, 다중‑웨이 조인 알고리즘으로 실행 비용을 최소화한다. 또한 LLM‑기반 의미 분석과 통계적 평가를 혼합해 최종 특성을 선택함으로써, 기존 방법 대비 예측 정확도를 최대 26.8% 향상시키면서도 실행 시간을 크게 단축한다.

상세 분석

Hippasus는 특성 강화 파이프라인을 네 단계로 명확히 분리한다. 첫 번째 단계인 Feature Description Generator는 의미가 모호한 컬럼명을 LLM에 입력해 풍부한 텍스트 설명을 생성한다. 이 설명은 이후 단계에서 의미 기반 필터링의 품질을 높이는 역할을 한다. 두 번째 단계인 Path Explorer는 전통적인 통계 지표(예: 결측 비율, 상관계수)와 LLM이 제공하는 의미 연관성을 동시에 고려한다. LLM은 “고객 주문 테이블과 제품 테이블 사이에 어떤 조인 경로가 예측 과제와 연관성이 높은가?”와 같은 프롬프트에 답변함으로써, 조인 비용이 낮고 의미적으로 타당한 경로를 사전에 선별한다. 이렇게 조인 경로를 실행 전에 차단함으로써 탐색 공간의 지수적 폭증을 효과적으로 억제한다.

세 번째 단계인 Join Executor는 Yannikakis(2020)에서 영감을 받은 다중‑웨이 조인 알고리즘을 적용한다. 이 알고리즘은 왼쪽 조인(left‑join) semantics를 유지하면서, 여러 경로에서 동일한 외부 컬럼이 도출될 경우 Consolidation 과정을 통해 가장 정보량이 높은 버전을 선택한다. 이 과정은 중복 특성 제거와 동시에 기본 테이블의 무결성을 보존한다.

마지막 단계인 Feature Selector는 LLM‑기반 의미 평가와 통계적 중요도(예: Mutual Information, Feature Importance from Tree‑based 모델)를 결합한다. LLM은 “이 특성이 ‘고객 이탈 예측’에 어떤 도메인 의미를 제공하는가?”와 같은 질문에 답변하고, 통계적 지표는 실제 데이터 분포를 반영한다. 두 신호를 가중 평균하거나 계층적 필터링을 적용해 최종 특성 집합을 도출한다.

실험에서는 7개의 공개 데이터셋(예: Kaggle, UCI)에서 기존 최첨단 방법(ARD‑A, AutoFeat, FeatPilot 등)과 비교했으며, 평균 정확도 향상폭은 12.4%였고, 최악의 경우에도 5% 이상 개선되었다. 실행 시간 측면에서는 조인 경로 사전 차단과 다중‑웨이 조인 덕분에 전체 파이프라인이 기존 방법 대비 2~3배 빠르게 수행되었다. 또한 LLM 호출 비용을 최소화하기 위해 배치 프롬프트와 캐시 전략을 도입했으며, 이는 전체 비용을 30% 이하로 억제한다.

핵심 인사이트는 **‘조인 경로 탐색과 실행을 완전히 분리하고, 의미론적 사전 지식을 활용하면 효율성과 효과성을 동시에 달성할 수 있다’**는 점이다. 특히 LLM이 제공하는 텍스트 기반 의미 정보가 전통적인 통계만으로는 포착하기 어려운 도메인 연관성을 드러내어, 다중‑hop 조인에서도 높은 품질의 특성을 확보한다는 점이 주목할 만하다.


댓글 및 학술 토론

Loading comments...

의견 남기기