시간적 링크 예측을 위한 행렬·텐서 분해 기법
초록
본 논문은 시간에 따라 변하는 이분 그래프의 링크를 예측하기 위해 행렬 기반 가중치 합성, 확장된 Katz 방법 및 SVD 근사와, 3차원 텐서에 대한 CANDECOMP/PARAFAC(CP) 분해를 제안한다. 실험을 통해 두 접근법 모두 높은 예측 정확도를 보였으며, 특히 텐서 기반 방법은 주기성이 변하는 데이터에서 뛰어난 성능을 나타냈다.
상세 분석
이 연구는 시간 축을 포함한 이분 그래프, 즉 사용자‑아이템 혹은 출발‑도착 노드 쌍이 연속적인 스냅샷으로 제공되는 상황을 다룬다. 먼저 저자들은 다년간의 인접 행렬을 단일 행렬로 압축하기 위해 가중치 기반 합성 방식을 도입한다. 각 연도(시간 단계)에 가중치를 부여함으로써 최근 데이터에 더 큰 비중을 두고, 오래된 정보는 점진적으로 감소시켜 시계열적 변화를 반영한다. 이 압축 행렬에 대해 전통적인 Katz 지표를 이분 그래프에 맞게 변형한다. 일반적인 Katz는 (I‑βA)⁻¹−I 형태로 정의되지만, 이분 구조에서는 좌우 행렬을 분리해 A·Aᵀ·… 형태의 경로를 고려한다. 계산 비용을 줄이기 위해 저자들은 행렬의 트렁케이티드 특이값 분해(SVD)를 적용, 상위 k개의 특이값과 특이벡터만 사용해 근사 Katz 점수를 효율적으로 얻는다. 이는 대규모 네트워크에서도 선형 시간에 가까운 복잡도로 실행 가능하게 만든다.
다음으로 텐서 기반 접근법을 제시한다. 시간, 출발 노드, 도착 노드의 3차원 구조를 그대로 유지한 뒤, CANDECOMP/PARAFAC(CP) 분해를 수행한다. CP는 텐서를 R개의 랭크‑1 텐서(외적) 합으로 표현하며, 각 모드(시간, 행, 열)의 요인 행렬을 동시에 학습한다. 이때 시간 모드 요인은 주기성 패턴을 내포할 수 있어, 예측 단계에서 해당 요인을 외삽하거나 주기 함수와 결합해 미래 시점의 링크 강도를 추정한다. 텐서 분해는 행렬 기반 방법이 놓치기 쉬운 다중 주기성(예: 연간·계절적 변동)과 비선형 트렌드를 포착한다는 장점이 있다.
실험에서는 두 가지 실제 데이터셋(학술 협업 네트워크와 온라인 상거래 로그)을 사용해 T 시점까지 학습하고 T+1, T+2,…를 예측한다. 평가 지표는 AUC와 Precision@K이며, 행렬 기반 Katz‑SVD는 기본적인 시간 가중치 합성만으로도 높은 AUC를 달성한다. 반면, 텐서 기반 CP는 특히 T+2, T+3 등 장기 예측에서 AUC 차이가 5~10% 정도 상승한다. 이는 텐서가 시간적 변동성을 더 정교히 모델링하기 때문이다. 또한, 주기성이 불규칙하게 변하는 경우에도 CP는 요인 행렬의 재학습 없이 기존 요인을 재조정해 안정적인 성능을 유지한다.
전체적으로 이 논문은 행렬과 텐서 두 축에서의 접근법을 비교·보완함으로써, 시간적 링크 예측 문제에 대한 실용적이고 확장 가능한 솔루션을 제공한다. 행렬 기반 방법은 구현이 간단하고 대규모 데이터에 적합하지만, 텐서 기반 방법은 복잡한 주기성 및 장기 예측에서 우수한 성능을 보인다.
댓글 및 학술 토론
Loading comments...
의견 남기기