동적 네트워크 링크 예측을 위한 반사실 데이터 증강 대비학습

동적 네트워크 링크 예측을 위한 반사실 데이터 증강 대비학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CoDCL은 연속시간 동적 그래프에서 링크 예측 성능을 높이기 위해 반사실 데이터 증강과 대비학습을 결합한 플러그인‑형 프레임워크이다. 시간 창 기반 공통 이웃 지표를 치료 변수로 정의하고, 근접 이웃 탐색을 통해 치료가 반대인 고유 구조를 가진 반사실 쌍을 생성한다. 생성된 사실·반사실 샘플을 대비학습에 활용해 모델이 표면적인 시간 상관관계가 아닌 인과적 원인을 학습하도록 유도한다. 다양한 실험에서 기존 최신 동적 그래프 모델에 CoDCL을 적용했을 때 예측 정확도와 일반화 능력이 크게 향상됨을 보였다.

상세 분석

CoDCL은 동적 네트워크 링크 예측이라는 복잡한 문제에 인과 추론과 대비학습을 효과적으로 접목시킨 점이 가장 큰 혁신이다. 기존의 연속시간 그래프 모델은 주로 시계열 상관관계에 의존해 노드 표현을 학습했으며, 구조적 변동이나 새로운 노드·엣지 등장에 취약했다. 논문은 이를 해결하기 위해 ‘치료 변수(Treatment)’라는 개념을 도입한다. 치료 변수는 시간 제한된 공통 이웃 수(N(u,v,t))를 기반으로 정의되며, 연속값 지표와 전역 임계값 θ를 이용해 이진화한다. 이 과정에서 최근 상호작용을 강조하기 위해 지수 감쇠 가중치를 적용함으로써, 최신 트렌드와 장기적 패턴을 동시에 포착한다.

반사실 데이터 생성 단계에서는 k‑hop 너비 우선 탐색을 통해 사실 쌍과 구조적으로 유사하지만 치료가 반대인 후보 쌍을 찾는다. 후보 쌍은 각 노드의 자체 특징과 이웃 집합을 합성한 h_u(t) = f_s(x_u(t)) + (1/|N_u(t)|)∑_{w∈N_u(t)} f_n(x_w(t)) 로 표현된 임베딩 공간에서 코사인 유사도를 최대화하는 방식으로 선택된다. 이렇게 하면 반사실 쌍이 실제 데이터와 의미론적으로 가깝지만 인과적 차이를 제공하므로, 대비학습에 이상적인 ‘양성‑음성’ 샘플이 된다.

대비학습 모듈은 기존의 시간 그래프 백본(TGAT, GraphMixer, DyGFormer 등) 위에 그대로 쌓을 수 있는 플러그인 구조다. 사실·반사실 쌍을 각각 z_i와 z_i’ 로 인코딩한 뒤, InfoNCE 기반 손실을 사용해 동일 쌍은 서로 가깝게, 다른 쌍은 멀게 배치한다. 이때 치료가 반대인 쌍을 명시적으로 구분함으로써, 모델은 “치료가 바뀌면 결과가 어떻게 변하는가”라는 인과적 질문에 답하도록 강제된다. 결과적으로 학습된 노드 표현은 단순히 과거 상호작용 빈도에 의존하지 않고, 구조적 변동과 시간적 인과 관계를 내재한다.

실험에서는 Reddit, Wikipedia, MOOC 등 다양한 실세계 연속시간 데이터셋을 사용했으며, CoDCL을 적용한 모델이 원본 베이스라인 대비 AUC, AP 지표에서 평균 3~7%p 상승을 기록했다. 특히, 훈련‑테스트 시점 간 분포 이동이 큰 ‘시계열 전이’ 상황에서 성능 저하가 현저히 적었다는 점이 인과 기반 데이터 증강의 효과를 잘 보여준다. 또한, ablation study를 통해 치료 변수의 연속값 vs 이진값, 탐색 깊이 k, 임계값 percentile p 등의 하이퍼파라미터가 성능에 미치는 영향을 정량화하였다.

전체적으로 CoDCL은 (1) 동적 네트워크에서 의미 있는 치료 변수를 설계하고, (2) 효율적인 근접 이웃 탐색으로 고품질 반사실 샘플을 생성하며, (3) 대비학습을 통해 인과적 일반화를 촉진한다는 세 가지 핵심 기여를 제공한다. 이 프레임워크는 기존 모델에 비침투적으로 적용 가능하므로, 향후 다양한 동적 그래프 응용(예: 실시간 사기 탐지, 교통 흐름 예측)에서도 손쉽게 활용될 수 있을 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기