관계 학습을 위한 커널 기반 언어 kLog

초록

kLog은 논리·관계형 데이터를 그래프로 변환한 뒤 그래프 커널을 적용해 학습하는 프레임워크이다. 확률 분포를 직접 모델링하지 않고, 해석(interpretation) 기반 학습, ER 모델링, 프로로그·다탈로그 배경지식 등을 결합한다. 분류·회귀·다중작업·집합 분류 등 다양한 SRL 과제를 지원하며, 실험에서 Tilde와 Alchemy 대비 정확도와 속도에서 경쟁력을 보인다.

상세 분석

kLog은 기존 통계 관계 학습(SRL) 접근법과 근본적으로 다른 설계 철학을 제시한다. 전통적인 SRL 시스템은 베이지안 네트워크, 마코프 로직 네트워크, 인디덕티브 로직 프로그래밍(ILP) 등에서 확률 모델을 직접 정의하고 추론한다. 반면 kLog은 “학습을 위한 해석”이라는 개념에 기반해, 데이터베이스 형태의 논리적 사실 집합을 입력으로 받아 이를 그래프 형태로 ‘그래프화(graphicalization)’한다. 이 과정은 엔터티·관계(ER) 다이어그램을 구체화하여, 각 엔터티와 관계를 노드와 엣지로 매핑하고, 속성은 라벨이나 추가 노드로 표현한다. 이렇게 얻어진 그래프는 다양한 기존 그래프 커널(예: Weisfeiler‑Lehman, 서브트리 커널, 라벨 전파 커널 등)에 의해 고차원 특징 공간으로 변환된다.

핵심 장점은 두 가지이다. 첫째, 그래프 커널이 제공하는 풍부한 구조적 특징을 통해 복잡한 관계 패턴을 자동으로 포착한다는 점이다. 노드 라벨, 엣지 라벨, 속성값(수치·범주형) 모두 커널에 포함될 수 있어, 전통적인 ILP에서 필요로 하는 복잡한 특성 설계 과정을 크게 축소한다. 둘째, 확률 모델을 명시적으로 정의하지 않음으로써 학습 과정이 전형적인 커널 기반 지도학습(예: SVM, 커널 릿지)으로 단순화된다. 이는 파라미터 추정이 비선형 최적화가 아니라 정규화된 이차계획 문제로 변환돼, 대규모 데이터에서도 효율적인 학습이 가능함을 의미한다.

kLog은 또한 배경 지식 통합을 Prolog/Datalog 프로그램 형태로 지원한다. 이러한 배경 지식은 그래프화 단계에서 추가 규칙으로 적용돼, 파생 관계나 전이 규칙을 자동으로 그래프에 반영한다. 따라서 기존 ILP 시스템이 제공하던 “학습 전 규칙 정의”와 유사한 기능을 유지하면서도, 커널 기반 학습의 효율성을 동시에 얻는다.

실험에서는 전형적인 SRL 벤치마크(예: Mutagenesis, WebKB, CiteSeer)와 실제 도메인(화학 구조, 소셜 네트워크)에서 kLog을 Tilde(논리 회귀 기반)와 Alchemy(Markov Logic Networks)와 비교하였다. 결과는 kLog이 동일한 정확도 수준에서 학습 시간을 수십 배 단축하거나, 동일 시간 내에 더 높은 정확도를 달성함을 보여준다. 특히 수치형 속성이 많이 포함된 데이터셋에서 그래프 커널이 수치 라벨을 자연스럽게 처리함으로써 성능 향상이 두드러졌다.

한계점으로는 그래프화 과정에서 메모리 사용량이 데이터 규모에 비례해 증가한다는 점과, 커널 선택이 결과에 큰 영향을 미치므로 도메인에 맞는 커널 설계가 필요하다는 점을 들 수 있다. 향후 연구에서는 동적 그래프 생성, 스파스 커널 설계, 그리고 딥러닝 기반 그래프 임베딩과의 하이브리드 접근이 제안된다.