지역 랜덤 워크를 활용한 링크 예측

초록

본 논문은 복잡 네트워크에서 누락된 링크를 예측하기 위해 지역 랜덤 워크(LRW) 기법을 제안한다. LRW는 짧은 경로 내에서 확률 전이를 이용해 노드 간 유사성을 측정함으로써 기존의 전역 랜덤 워크 기반 방법보다 계산량을 크게 줄이면서도 예측 정확도를 유지하거나 향상시킨다. 실험 결과, 대규모·희소 네트워크에서도 높은 AUC와 Precision을 달성함을 확인하였다.

상세 요약

링크 예측은 소셜, 생물학, 정보 네트워크 등 다양한 분야에서 중요한 문제이며, 특히 네트워크가 매우 크고 연결이 희소할 때 효율적인 알고리즘이 요구된다. 기존 연구에서는 공통 이웃, 자카드 계수와 같은 로컬 기반 지표부터, Katz 지수, 행렬 분해, 그리고 전역 랜덤 워크(Random Walk with Restart, RWR)와 같은 복잡한 전역 방법까지 다양하게 제안되었다. 전역 랜덤 워크는 전체 네트워크 구조를 활용해 정확도를 높일 수 있지만, 매 반복마다 전체 인접 행렬을 곱해야 하므로 O(N²) 이상의 시간 복잡도가 발생한다. 이는 N이 수만~수백만에 달하는 실용적인 네트워크에서는 현실적인 적용이 어렵다.

본 논문은 이러한 문제점을 해결하고자 “Local Random Walk”(LRW)를 도입한다. LRW는 시작 노드에서 제한된 단계(t)만큼만 랜덤 워크를 수행하고, 그 과정에서 방문된 노드들의 방문 확률을 누적한다. 구체적으로, t‑step 전이 행렬 P^t 를 계산하는 대신, 각 단계마다 현재 확률 벡터를 인접 행렬과 곱해 새로운 확률 벡터를 얻는다. 이때 t는 일반적으로 2~3 정도로 작게 설정되며, 이는 네트워크의 로컬 구조만을 활용한다는 의미다. 이렇게 하면 전체 네트워크를 탐색하지 않아도 되므로 시간 복잡도는 O(k·t·N) (k는 평균 차수) 로 크게 감소한다.

LRW 기반 유사도는 두 노드 i, j 사이의 확률 전이량을 대칭화한 s_{ij}=π_i(j)+π_j(i) 로 정의한다. 여기서 π_i(j) 는 i에서 시작한 t‑step 랜덤 워크가 j에 도달할 확률이다. 이 지표는 공통 이웃을 포함한 로컬 구조 정보를 자연스럽게 통합한다. 또한, 전통적인 로컬 지표와 달리 경로 길이가 2보다 큰 경우도 고려하므로, 단순히 이웃 수에만 의존하는 방법보다 풍부한 정보를 제공한다.

실험에서는 5개의 실세계 네트워크(예: 미국 전력망, 인터넷 AS 레벨, 피노코시스, 사과 과일 협동 네트워크, 학술 협업 네트워크)를 대상으로 AUC, Precision@L, Recall@L 등을 측정하였다. LRW는 기존의 Local Path, Adamic/Adar, 그리고 전역 RWR에 비해 비슷하거나 더 높은 성능을 보였으며, 특히 네트워크가 매우 희소한 경우에 그 차이가 두드러졌다. 계산 시간 측면에서도 LRW는 RWR 대비 10배 이상 빠르게 수행되었으며, 메모리 사용량도 크게 절감되었다.

핵심 인사이트는 “전역 정보를 모두 활용할 필요는 없으며, 제한된 로컬 스텝만으로도 충분히 강력한 예측 성능을 얻을 수 있다”는 점이다. 이는 네트워크 규모가 커질수록 전역 방법이 비현실적이 되는 현실과 잘 맞물린다. 또한, t 값을 네트워크 특성(예: 평균 경로 길이, 클러스터링 계수)에 따라 조정하면 성능-복잡도 트레이드오프를 유연하게 조절할 수 있다. 향후 연구에서는 동적 네트워크에 대한 실시간 LRW 업데이트, 다중 스케일 t 값 결합, 그리고 노드 속성(예: 라벨, 특징 벡터)과의 하이브리드 모델링이 기대된다.

초록

상세 요약

📜 논문 원문 (영문)