소셜 벡터 클록을 이용한 링크 예측
초록
본 논문은 이벤트 기반의 소셜 네트워크에서 시간 순서와 간격 정보를 활용한 ‘소셜 벡터 클록(Social Vector Clock)’이라는 경량 피처를 제안한다. 전통적인 패널 데이터 기반 링크 예측이 놓치기 쉬운 직접·간접 상호작용의 최신성(latency)을 정량화함으로써, 기존 복합 피처와 결합했을 때 현재까지 가장 높은 정밀‑재현율(AUPR)을 달성한다는 실험 결과를 제시한다.
상세 분석
소셜 벡터 클록은 분산 시스템에서 사용되는 전통적인 벡터 클록 개념을 사회적 상호작용 네트워크에 맞게 변형한 것이다. 각 노드는 다른 모든 노드에 대해 “가장 최근에 받을 수 있었던 정보의 시각”을 저장하며, 이는 시간 순서대로 발생하는 (시간, 송신자, 수신자) 삼중항을 실시간으로 처리하면서 업데이트된다. 기존 벡터 클록은 모든 노드 쌍에 대해 O(N²) 공간을 요구하고, 매 이벤트마다 전체 벡터를 비교·합치는 연산이 필요해 대규모 네트워크에 비효율적이었다. 논문에서는 두 가지 핵심 최적화를 적용한다. 첫째, 사회적 네트워크는 작은 세계(small‑world) 특성을 가지므로 실제로 의미 있는 정보 흐름은 제한된 반경 내에서만 발생한다는 가정 하에, 일정 거리(예: 2‑3 hops) 이내의 노드에 대해서만 뷰를 유지한다. 둘째, 업데이트 연산을 “직접 업데이트”와 “간접 업데이트”로 구분해, 단방향 커뮤니케이션(이메일, 트위터 멘션)에서는 수신자만 뷰를 갱신하고, 양방향 통화·미팅 등에서는 양쪽이 동시에 갱신한다. 이렇게 하면 공간 복잡도는 O(N·k) (k는 고려 반경)로 감소하고, 시간 복잡도도 이벤트당 O(k)로 제한된다.
피처 설계 측면에서 저자들은 세 가지 파생 변수를 만든다. 1) Latency – 현재 시점에서 송신자가 수신자에 대해 가지고 있는 최신 정보 시각과 실제 최신 시각의 차이; 값이 작을수록 최신 정보를 공유하고 있음을 의미한다. 2) Indirect Update Count – 특정 기간 동안 두 노드 사이에 발생한 간접적인 정보 전달 횟수(예: A→C→B 형태)이며, 이는 정보 흐름의 빈도와 경로 다양성을 포착한다. 3) Recency Gradient – 최근에 발생한 상호작용이 전체 상호작용 대비 차지하는 비율로, 최근성에 대한 가중치를 제공한다. 이러한 피처는 기존의 구조적 지표(공통 이웃, Adamic‑Adar, Preferential Attachment 등)와 결합해 로지스틱 회귀 혹은 Gradient Boosting Machine 등 표준 이진 분류기에 입력된다.
실험에서는 세 개의 실제 데이터셋(대학 이메일 로그, 트위터 멘션 스트림, 온라인 포럼 메시지)을 사용해 5‑fold 교차 검증 방식으로 여러 “realization”을 생성했다. 평가 지표는 클래스 불균형이 심각한 링크 예측 문제에 적합한 Precision‑Recall 곡선 아래 면적(AUPR)이다. 결과는 (i) 소셜 벡터 클록 단독 피처만으로도 기존 복합 피처 대비 평균 8‑12% 높은 AUPR을 기록했고, (ii) 기존 피처와 결합했을 때는 최고 15‑20%의 상대적 개선을 보였다. 특히, “간접 업데이트” 피처는 초기 단계(노드 간 거리가 2‑3인 경우)에서 큰 효과를 발휘했으며, 이는 전통적인 구조적 피처가 포착하지 못하는 시간적 흐름을 보완한다는 점을 시사한다.
한계점으로는 (a) 반경 k를 고정해야 하는데, 네트워크 밀도에 따라 최적값이 달라질 수 있다는 점, (b) 매우 드문 이벤트(예: 월 1회 이하)의 경우 업데이트가 거의 일어나지 않아 피처의 신호‑노이즈 비율이 낮아진다. 향후 연구에서는 동적 반경 조정, 이벤트 가중치 학습, 그리고 멀티모달 데이터(텍스트 내용·감성)와의 융합을 통해 예측 정확도를 더욱 끌어올릴 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기