관계형 데이터베이스 압축을 위한 테이블 그래프 변환 프레임워크
초록
본 논문은 대규모 관계형 데이터베이스를 저장·연산 비용이 적은 이질 그래프로 압축하는 ‘관계형 데이터베이스 증류(RDD)’ 문제를 정의하고, 테이블‑그래프 변환(T2G) 방법을 제안한다. 다중 모달 컬럼을 경량 토크나이저로 인코딩하고, 클러스터 기반 의사라벨을 이용해 확률적 블록 모델로 그래프 구조를 생성한다. 마지막으로 커널 릿지 회귀 목표를 통해 특성을 증류해 분류·회귀 작업 모두에서 원본 데이터와 동등한 성능을 유지한다.
상세 분석
관계형 데이터베이스(RDB)는 수십억 행에 달하는 다중 테이블과 복잡한 외래키 관계로 구성돼, 기존 그래프 신경망(GNN) 기반 예측 모델은 메시지 패싱 비용과 메모리 사용량이 급증한다는 근본적인 병목을 안고 있다. 논문은 이러한 문제를 ‘관계형 데이터베이스 증류(Relational Database Distillation, RDD)’라는 데이터 중심 패러다임으로 재정의한다. RDD는 원본 RDB의 예측 정보를 보존하면서 엔터티 수와 저장 용량을 크게 줄인 합성 데이터베이스를 생성하는 것을 목표로 한다.
T2G 프레임워크는 세 단계로 구성된다. 첫째, 각 컬럼의 데이터 모달리티(수치, 범주, 시계열 등)에 맞는 경량 토크나이저를 설계한다. 수치 컬럼은 선형 프로젝션, 범주 컬럼은 임베딩 매트릭스 형태로 변환해, 컬럼별 임베딩을 얻는다. 둘째, 이러한 임베딩을 클러스터링(pre‑training)하여 엔터티 간 유사성을 파악하고, 클러스터 할당을 의사라벨(pseudo‑label)로 활용한다. 클러스터는 데이터의 전형적인 패턴을 압축적으로 표현하므로, 이후 그래프 구조 생성 시 복잡한 테이블 간 의존성을 효율적으로 모델링할 수 있다. 셋째, 의사라벨을 기반으로 확률적 블록 모델(Stochastic Block Model, SBM)을 적용해 이질 그래프의 노드와 엣지를 동시에 샘플링한다. SBM은 클러스터 간 연결 확률을 학습함으로써, 원본 스키마와 동일한 테이블·관계 타입을 유지하면서도 노드 수를 크게 축소한다.
구조가 완성된 합성 그래프에 대해서는 커널 릿지 회귀(Kernel Ridge Regression, KRR) 손실을 도입한다. KRR은 라벨과 의사라벨을 동시에 지도해, 합성 노드 특징이 원본 데이터의 예측 신호를 보존하도록 유도한다. 이 과정은 전통적인 이중 최적화(bi‑level) 방식보다 계산 효율이 높으며, 분류와 회귀 두 종류의 다운스트림 태스크에 모두 적용 가능하도록 설계되었다.
실험에서는 소셜 미디어, 전자상거래, 금융 등 실제 대규모 RDB 4개에 대해 압축 비율 10배30배를 달성하면서, GNN 기반 베이스라인 대비 12% 이내의 정확도 손실만을 보였다. 특히, 다양한 테이블 스키마와 다중 모달 컬럼을 가진 데이터셋에서도 T2G가 일관된 성능을 유지한다는 점이 주목할 만하다. 한편, 클러스터 수와 SBM 파라미터 선택이 최종 성능에 민감하다는 한계와, 매우 희소하거나 고차원 범주형 컬럼에 대한 토크나이저 설계가 추가 연구가 필요함을 언급한다.
요약하면, T2G는 (1) 모달리티 별 경량 인코더, (2) 클러스터 기반 의사라벨링, (3) SBM 기반 그래프 합성, (4) KRR‑지도 특성 증류라는 네 가지 핵심 기술을 결합해, 대규모 관계형 데이터베이스를 효율적인 이질 그래프로 압축한다. 이는 저장·연산 비용을 크게 절감하면서도 기존 GNN 모델의 예측 능력을 유지하는 실용적인 솔루션으로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기