동적 링크 예측을 위한 반지도 그래프 임베딩 접근법

본 논문은 동적 네트워크에서 미래 시점 t+1 의 링크 변화를 예측하는 문제를 다룬다. 기존 연구는 정적 링크 예측과 시간에 따른 전체 그래프 변화를 예측하는 두 축으로 나뉘었으며, 특히 링크의 형성(생성)과 소멸(삭제)을 동시에 고려하는 경우는 드물었다. 저자는 네트워크 전이를 두 개의 별도 그래프, 즉 형성 네트워크 F와 소멸 네트워크 D로 분해하고, 각각을 독립적으로 예측하는 모델을 제안한다. ### 1. 문제 정의 및 기호 시점 t 까지의 네트워크 스냅샷를 G₁,…,Gₜ 이라 두고, 각 스냅샷은 인접 행렬 Gᵗ 으로 표현한다. 현재 네트워크 Gₜ 를 기준으로, 과거 t 시점까지의 형성 행렬 Fᵗ (새로운 링크가 생긴 경우)와 소멸 행렬 Dᵗ (링크가 사라진 경우)를 정의한다. 목표는 Gₜ → Gₜ₊₁ 전이를 예측하는 것으로, 이는 Fₜ₊₁ 과 Dₜ₊₁ 을 동시에 추정하는 것과 동등하다. ### 2. 모델 설계 #### 2.1 복소수 벡터와 Bilinear 모델 각 노드 i 에 대해 차원 d 의 복소수 임베딩 vᶠᵢ (형성)와 vᵈᵢ (소멸)를 학습한다. 또한 대각 복소수 행렬 Wᶠ, Wᵈ (각 원소는 절댓값 1)을 도입해 비대칭 관계를 모델링한다. 감독 손실은 과거 형성·소멸 네트워크에서 관측된 링크(양성)와 무작위 샘플링된 비링크(음성)를 구분하는 교차 엔트로피 형태이며, 네거티브 샘플링을 통해 정규화 비용을 회피한다. #### 2.2 현재 스냅샷 기반 그래프 임베딩 비감독 학습은 현재 스냅샷 Gₜ 에 대해 DeepWalk(또는 단순 랜덤 워크)를 수행해 노드 i 와 주변 컨텍스트 c 쌍을 생성한다. Skip‑gram 모델을 적용해 임베딩 uᶠ_c, uᵈ_c 를 학습하고, 복소수 내적 Re(vᵀu) 를 사용해 확률을 정의한다. 이 역시 네거티브 샘플링을 적용한다. #### 2.3 반지도 손실 결합 전체 손실은 L_f = L_f^s + λ_f L_f^u, L_d = L_d^s + λ_d L_d^u 로 구성된다. λ는 감독 손실과 비감독 손실 사이의 가중치를 조절한다. 두 손실을 동시에 최소화함으로써, 과거 동적 패턴에서 얻은 “목표 신호”와 현재 네트워크 구조에서 얻은 “분포적 문맥”이 서로 보완된다. ### 3. 학습 절차 SGD를 이용해 파라미터 vᶠ, vᵈ, uᶠ, uᵈ 를 업데이트한다. 대각 행렬 Wᶠ, Wᵈ 의 각 원소는 cosθ + i sinθ 형태로 파라미터화해, 각도 θ 에 대해 별도 학습률 η₂ 를 적용한다. 학습 과정에서 매 반복마다 (i) 현재 네트워크에서 랜덤 워크를 수행해 컨텍스트를 샘플링하고, (ii) 과거 형성·소멸 네트워크에서 양·음성 쌍을 샘플링한다. ### 4. 예측 방식 학습이 끝난 후, 형성 확률은 p(G_{ij}^{t+1}=1 | G_{ij}^t=0) = σ( Re(vᵀ_f W_f v_f) ) 소멸 확률은 p(G_{ij}^{t+1}=0 | G_{ij}^t=1) = σ( Re(vᵀ_d W_d v_d) ) 으로 계산한다. 실험에서는 두 확률을 단순히 합산하는 σ + Re 전략이 가장 좋은 성능을 보였으며, 이는 형성·소멸이 동시에 일어나는 “재배선” 현상을 반영한다는 해석이 가능하다. ### 5. 실험 설정 세 개의 실제 데이터셋을 사용했다. 1. **WorldTrade**: 1981‑2000년 50개 국가 간 무역 관계, 연간 스냅샷 20개. 2. **FirmNetwork**: 일본 홋카이도 지역 기업 간 매매 관계, 2003‑2012년, 10개 스냅샷. 3. **Customs**: 일본‑미국 수출입 기업 간 bipartite 네트워크, 월별 스냅샷 12개. 각 데이터셋에 대해 형성·소멸 평균 에지 수와 전체 에지 수를 기록하고, AUC(Area Under ROC Curve)로 성능을 평가했다. 베이스라인으로는 Adamic‑Adar, Preferential Attachment, Last‑Link‑Time 등 전통적인 히스토리 기반 방법과, 그래프 임베딩만 사용한 비감독 모델, 감독 손실만 사용한 모델을 포함했다. 하이퍼파라미터는 d=3, 워크 수=5, λ_f=λ_d=0.05, η₁=0.05, η₂=5×10⁻⁶, p=t‑1 등으로 설정하였다. ### 6. 결과 및 분석 - **형성 예측**: 제안 모델은 최신 그래프 임베딩 기반 방법과 비슷한 AUC를 기록했으며, 특히 데이터가 희소하고 변동성이 큰 경우에 강건함을 보였다. - **소멸 예측**: 기존 베이스라인(AA, PA, LL 등) 대비 5~15% 정도 높은 AUC를 달성, 특히 금융 위기와 같은 구조적 변동이 큰 시점에서 두드러진 성능 향상을 보였다. - **반지도 효과**: 감독 손실만 혹은 비감독 손실만 사용한 경우보다 두 손실을 결합한 모델이 일관적으로 높은 AUC를 기록, 두 정보원의 시너지 효과를 실증했다. ### 7. 기여 및 한계 - **기여**: (1) 형성·소멸을 별도 임베딩으로 학습하는 최초의 반지도 그래프 임베딩 프레임워크, (2) 복소수 bilinear 모델을 활용해 비대칭 관계를 자연스럽게 표현, (3) 실제 네트워크에서 소멸 예측 성능을 크게 개선. - **한계**: 복소수 파라미터와 대각 행렬 제한으로 인해 모델 표현력이 제한될 수 있으며, 현재는 이산 시간(스냅샷) 모델에만 적용 가능하다. 대규모 네트워크에 대한 확장성 및 연속 이벤트 스트림에 대한 적용은 향후 연구 과제로 남는다. ### 8. 결론 본 연구는 과거 동적 정보와 현재 구조 정보를 동시에 활용하는 반지도 그래프 임베딩 방법을 제안함으로써, 동적 네트워크에서 링크 형성과 소멸을 효과적으로 예측한다. 실험 결과는 특히 링크 소멸 예측에서 기존 방법들을 크게 능가함을 보여주며, 금융·사회·무역 등 다양한 분야에서 위험 관리 및 전략적 의사결정에 활용될 가능성을 시사한다.

동적 링크 예측을 위한 반지도 그래프 임베딩 접근법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기