TLSQL 테이블 학습을 위한 선언형 SQL 인터페이스

TLSQL 테이블 학습을 위한 선언형 SQL 인터페이스
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

TLSQL은 관계형 데이터베이스에 직접 머신러닝 작업을 선언형 SQL 문법으로 기술하게 해 주는 파이썬 라이브러리이다. 사용자는 PREDICT, TRAIN, VALIDATE 세 가지 구문만으로 학습·검증·예측 데이터를 정의하고, TLSQL은 이를 표준 SQL 쿼리와 구조화된 학습 태스크 메타데이터로 변환한다. 데이터 추출은 DB 엔진이 담당하고, 메타데이터는 기존 테이블 학습 프레임워크에 전달돼 별도 데이터 내보내기나 복잡한 파이프라인 없이 바로 모델링이 가능하다.

상세 분석

TLSQL은 테이블 학습(Table Learning)이라는 비교적 새로운 연구 영역에 실용적인 접근법을 제시한다. 기존 테이블 학습 시스템은 데이터베이스와 머신러닝 파이프라인 사이에 명시적인 데이터 추출 단계와 복잡한 피처 엔지니어링 과정을 요구한다. 이러한 구조는 데이터베이스 관리자와 SQL 전문가가 머신러닝을 도입하는 데 높은 진입 장벽을 만든다. TLSQL은 이러한 문제를 ‘SQL‑like 선언형 인터페이스’를 통해 해결한다는 점에서 의미가 크다.

첫째, 언어 설계 측면에서 TLSQL은 PREDICT VALUE, TRAIN WITH, VALIDATE WITH라는 세 가지 핵심 구문만을 제공한다. PREDICT VALUE 구문은 예측 대상 컬럼과 작업 유형(분류·회귀)을 명시하고, FROM 절과 선택적 WHERE 절을 통해 테스트 셋을 정의한다. TRAIN WITH 구문은 학습에 사용할 테이블과 컬럼, 그리고 다중 테이블에 걸친 필터링 조건을 지정한다. VALIDATE WITH 구문은 검증 셋을 정의하며, PREDICT 구문의 작업 유형을 자동으로 상속한다. 이러한 설계는 SQL 사용자가 기존에 익숙한 SELECT‑FROM‑WHERE 패턴을 그대로 활용하면서도, 머신러닝 작업 정의를 한 줄로 압축할 수 있게 한다.

둘째, 구현 아키텍처는 Lexer → Parser → SQLGenerator의 3단계 파이프라인으로 구성된다. Lexer는 키워드와 연산자를 토큰화하고, 오류 위치를 정확히 보고한다. Parser는 재귀 하강 방식으로 TLSQL 문법을 검증하고 AST(Abstract Syntax Tree)를 생성한다. SQLGenerator는 AST를 순회하면서 (1) 테이블별 컬럼 그룹화, (2) WHERE 절을 원자적 프레디케이트로 분해해 각 테이블에 할당, (3) PREDICT 구문에서 추출한 목표 컬럼과 작업 유형을 메타데이터에 기록한다. 결과적으로 표준 SQL 쿼리와 구조화된 학습 태스크 설명이 동시에 산출된다.

셋째, TLSQL은 다중 레벨의 작업 지정 방식을 제공한다. 레벨 I(최소 지정)에서는 PREDICT만 제공하면 나머지 TRAIN·VALIDATE는 자동으로 전체 데이터와 k‑fold 교차 검증으로 채워진다. 레벨 II에서는 TRAIN을 명시해 학습 데이터를 제한하고, VALIDATE는 기본 교차 검증을 적용한다. 레벨 III에서는 모든 구문을 명시해 완전한 데이터 파티셔닝과 검증 전략을 제어한다. 이 계층적 설계는 초보자는 최소 입력으로 빠르게 시작하고, 숙련자는 세부 옵션을 조정해 최적의 파이프라인을 구축하도록 돕는다.

넷째, 실험 결과는 TLSQL이 실제 기업 데이터베이스(MySQL 기반 TML1M 데이터셋)에서 기존 RTL 프레임워크(BRIDGE)와 원활히 연동됨을 보여준다. 사용자는 TLSQL 스크립트 하나로 (1) 학습·검증·예측 데이터 정의, (2) SQL 실행, (3) 데이터 로딩·전처리, (4) 하이퍼파라미터 설정·모델 학습, (5) 시각화·결과 내보내기까지 전체 워크플로를 자동화한다. 이는 데이터 내보내기·재구성 비용을 크게 절감하고, DB 관리자가 기존 SQL 툴 체인 안에서 머신러닝을 수행하도록 만든다.

마지막으로, TLSQL은 오픈소스로 공개돼 커뮤니티 확장이 가능하고, 표준 SQL을 기반으로 하기 때문에 다양한 관계형 DBMS(MySQL, PostgreSQL, Oracle 등)와 호환된다. 향후 연구에서는 복합형 조인·집계, 시계열 데이터, 그리고 대규모 분산 DB 환경에 대한 최적화와, 자동 피처 추출·엔코딩을 결합한 고급 파이프라인 구축이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기