플루렐: 합성 관계형 데이터로 스케일링 법칙을 깨다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
플루렐은 스키마 그래프, 이분 그래프 기반 외래키 연결, 인과 메커니즘을 결합해 다중 테이블 관계형 데이터베이스를 합성한다. 합성 데이터로 사전학습한 관계형 트랜스포머(RT)는 사전학습 손실이 데이터베이스 수와 토큰 수에 대해 파워‑법칙을 따름을 보였으며, 실제 데이터베이스에 대한 제로샷 성능과 실 데이터 추가 사전학습 시 성능 향상을 입증한다.
상세 분석
플루렐은 관계형 데이터베이스(RDB)의 복합 구조를 세 단계로 추상화한다. 첫 번째 단계에서는 테이블과 그들 간의 방향성 관계를 정점과 간선으로 표현한 DAG(Directed Acyclic Graph)를 샘플링한다. 이때 테이블 수, 각 테이블의 아웃‑디그리(외래키 수) 등을 메타데이터로 지정해 엔터티 테이블과 액티비티 테이블을 구분한다. 두 번째 단계는 부모‑자식 테이블 간의 행 수준 연결을 모델링한다. 플루렐은 각 테이블의 행을 블록으로 계층화하고, 계층적 확률 블록 모델(Hierarchical Stochastic Block Model, HSBM)을 이용해 블록 간 연결 확률을 정의한다. 이를 통해 특정 블록에 속한 행들이 동일한 부모 블록에 집중적으로 매핑되는 ‘지역성(locality)’을 조절할 수 있다. HSBM 파라미터는 레벨별 확률 행렬 P
댓글 및 학술 토론
Loading comments...
의견 남기기