머신러닝을 위한 그래프 활용 입문
초록
본 논문은 그래프를 데이터 구조로 활용하는 머신러닝 기법을 개괄한다. 정적 그래프의 군집·커뮤니티 탐지부터 동적·다중 그래프까지, 비지도와 지도 학습 방법을 체계적으로 정리한다.
상세 분석
논문은 그래프를 정점·간선의 집합으로 정의하고, 인접 행렬을 기본 표현으로 채택한다. 정적 네트워크의 주요 특성으로 희소성, 거대 연결성, 차수 이분성·스몰월드 현상을 강조하며, 이러한 구조적 특성이 알고리즘 설계에 미치는 영향을 상세히 논의한다. 비지도 학습에서는 두 갈래의 접근법을 제시한다. 첫 번째는 모듈러티 기반 커뮤니티 탐지로, Girvan–Newman 모듈러티 점수를 최대화하는 Louvain 같은 탐욕적 방법과 그 NP‑hard 특성, 그리고 degree‑corrected 변형의 필요성을 짚는다. 두 번째는 잠재 위치 군집 모델(LPCM)로, 정점을 저차원 유클리드 공간에 임베딩하고 Gaussian mixture 로 군집을 형성한다는 아이디어를 설명한다. 여기서는 최대우도 추정, MCMC, 변분 베이지안 추론 등 파라미터 추정 기법을 비교하고, 저차원 시각화가 실무에서 갖는 장점을 강조한다. 이어서 확률 블록 모델(SBM)과 그 변형을 다룬다. SBM은 정점이 잠재 군집에 할당되고, 군집 간 연결 확률 행렬 Π에 의해 간선이 생성되는 확률적 프레임워크이며, EM, 변분 EM, Gibbs 샘플링 등 비정형 후방분포를 다루기 위한 근사 방법을 제시한다. 특히 군집 수 추정을 위한 변분 베이지안 정보 기준(VBIC)과 비모수적 방법을 논의한다. 동적 그래프 확장은 HMM, 선형 동적 시스템, 연속시간 포아송 프로세스 등 시간적 잠재 구조를 모델링하는 접근을 소개하며, 이벤트 기반 모델이 연속시간 데이터를 어떻게 처리하는지를 설명한다. 다중 그래프 섹션에서는 그래프 자체가 데이터 포인트인 상황을 다루며, 그래프 신경망(GNN)과 재귀 신경망을 통한 정점‑레벨 메시지 전달, 그리고 그래프 간 거리·커널 설계의 어려움을 짚는다. 그래프 동형성 문제의 복잡도와 근사 알고리즘(예: Weisfeiler–Lehman 커널, 그래프 워터마크) 등을 언급하면서, 거리 기반 방법이 전통적인 머신러닝 파이프라인에 어떻게 통합될 수 있는지를 제시한다. 전체적으로 논문은 그래프 기반 학습이 정적·동적, 단일·다중 그래프 모두에서 적용 가능함을 강조하고, 현재 연구의 한계(스케일링, 이질성 처리, 모델 선택)와 향후 연구 방향(표현 학습, 대규모 동적 네트워크, 그래프‑텍스트·이미지 멀티모달 통합)을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기