새 사용자 소셜 링크 예측을 위한 맞춤형 샘플링 기반 교차 네트워크 모델
초록
본 논문은 신규 사용자(새 사용자)의 소셜 링크를 예측하기 위해, 타깃 네트워크의 기존 사용자와 정렬된 외부 소스 네트워크의 정보를 동시에 활용하는 SCAN‑PS 모델을 제안한다. 개인화된 샘플링으로 기존 사용자와 새 사용자의 정보 분포 차이를 보정하고, 앵커 링크를 통해 다중 이질 네트워크 간 지식을 전이함으로써 콜드 스타트 문제를 완화한다. 트위터와 포스퀘어 데이터셋 실험에서 기존 방법들을 크게 능가하는 성능을 보였다.
상세 분석
SCAN‑PS는 두 가지 핵심 아이디어를 결합한다. 첫째, 타깃 네트워크 내부에서 ‘개인화된 샘플링(personalized sampling)’을 수행한다. 기존(오래된) 사용자들의 풍부한 구조·속성 정보를 무작위로 추출하는 것이 아니라, 새 사용자와 통계적 분포가 유사하도록 가중치를 부여해 샘플을 선택한다. 이는 새 사용자와 오래된 사용자 사이의 ‘정보 분포 차이’를 완화하고, 학습된 지도 함수가 새 사용자에게 과도한 편향을 갖지 않게 만든다. 둘째, 정렬된 이질 네트워크 간에 앵커 링크(anchor link)를 이용해 교차 전이를 수행한다. 새 사용자가 타깃 네트워크에 아직 충분한 활동 기록이 없더라도, 다른 소스 네트워크(예: 트위터)에서 동일 인물에 대한 풍부한 사회·위치·시간·텍스트 정보를 가져와 특성 벡터를 보강한다. 이때 네트워크는 사용자, 위치, 시간, 단어 등 네 종류의 노드와 네 종류의 이질 링크(친구, 위치, 시간, 단어)로 구성되며, 각각에 대해 공통 이웃, Jaccard, Adamic/Adar 등 전통적인 구조 특성과, 위치 내적·코사인·유클리드 거리, 텍스트 TF‑IDF 기반 특성을 추출한다.
학습 단계에서는 두 네트워크에서 추출된 특성을 하나의 고차원 피처 벡터로 결합하고, 라벨(링크 존재 여부)과 함께 지도 학습(예: 로지스틱 회귀 또는 Gradient Boosting)으로 모델을 훈련한다. 개인화 샘플링은 기존 사용자 집합을 재가중치하여 ‘새 사용자와 유사한’ 서브셋을 만든 뒤, 이 서브셋만을 학습에 사용함으로써 클래스 불균형과 분포 차이를 동시에 해결한다. 실험에서는 새 사용자의 ‘신규 정도’를 1주, 1개월, 3개월 등으로 구분하고, 각 구간별 AUC, Precision@K 등을 측정했다. 결과는 (1) 단일 네트워크 기반 전통적 링크 예측 방법보다 현저히 높은 성능, (2) 소스 네트워크 없이 개인화 샘플링만 적용했을 때보다 교차 전이 효과가 추가될 경우 더욱 큰 개선을 보였다. 특히 완전 콜드 스타트(새 사용자가 타깃 네트워크에 전혀 정보가 없는 경우)에서도 SCAN‑PS는 소스 네트워크의 풍부한 피처를 활용해 의미 있는 예측을 수행한다.
이 논문의 주요 공헌은 (a) 새 사용자와 기존 사용자의 분포 차이를 정량화하고, 이를 보정하기 위한 개인화 샘플링 프레임워크 제시, (b) 앵커 링크를 통한 다중 이질 네트워크 간 지식 전이 메커니즘 설계, (c) 두 메커니즘을 통합한 SCAN‑PS 모델을 구현하고, 실제 대규모 SNS 데이터에서 실증적으로 검증한 점이다. 한계점으로는 앵커 링크의 정확도에 크게 의존한다는 점과, 소스 네트워크가 충분히 풍부하지 않을 경우 전이 효과가 감소한다는 점을 들 수 있다. 향후 연구에서는 자동 앵커 링크 추정, 도메인 적응형 가중치 학습, 그리고 그래프 신경망(GNN) 기반의 end‑to‑end 구조로 확장하는 방향이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기