Jaccard 기반 랜덤워크와 순위 집계로 구현한 강건한 노드 친화도
초록
TopKGraphs는 시작 노드에 고정된 Jaccard 유사도로 전이 확률을 편향시킨 랜덤워크를 여러 번 수행하고, 각 워크의 최초 방문 순서를 Borda 방식으로 집계해 해석 가능한 노드‑노드 친화도 행렬을 만든다. 합성 SBM·LFR 그래프, kNN 그래프, 그리고 고신뢰도 인간 PPI 네트워크에서 기존 Jaccard·Dice, Personalized PageRank, Node2Vec 대비 동일하거나 우수한 군집·분류 성능을 보이며, 파라미터가 적고 잡음·희소성에 강인함을 입증한다.
상세 분석
본 논문은 그래프 상에서 노드 간 구조적 유사성을 정량화하기 위해 두 가지 핵심 아이디어를 결합한다. 첫 번째는 시작 노드 s에 대해 모든 이웃 노드 v의 Jaccard 유사도 J_s(v)를 미리 계산하고, 이를 전이 확률 P(u→v)=J_s(v)+ε (ε>0) 로 사용해 “Jaccard‑anchored” 랜덤워크를 수행한다는 점이다. 이 방식은 전통적인 무작위 전이와 달리, 시작 노드와 구조적으로 유사한 이웃을 우선 탐색하도록 유도한다. 두 번째는 각 워크에서 노드가 처음 방문되는 시점(t_k(v))을 기준으로 순위를 매기고, K번의 독립 워크에서 얻은 전체 순위 ˜τ_k(v)를 Borda 평균으로 집계해 최종 점수 B_s(v)를 산출한다. Borda 점수가 낮을수록 시작 노드와의 구조적 친화도가 높다고 해석한다.
이 설계는 몇 가지 중요한 장점을 제공한다. (1) Jaccard 기반 전이 편향은 로컬 이웃 겹침 정보를 직접 활용하면서도, 워크가 여러 홉을 넘어 전파되므로 단일 이웃 집합에 국한되지 않는다. (2) 최초 방문 순서만을 사용하고 재방문을 무시함으로써, 방문 빈도(확률) 대신 “얼리 액세스”라는 질적 정보를 강조한다. 이는 잡음이 많은 그래프에서 희소한 진짜 연결이 여러 경로를 통해 조기에 드러날 경우, 해당 노드가 높은 순위를 차지하도록 만든다. (3) Borda 집계는 순위 기반 메타‑학습으로, 개별 워크의 변동성을 평균화하면서도 비선형적인 가중치를 부여하지 않아 파라미터 튜닝 부담을 크게 낮춘다.
이론적 분석에서는 관측 그래프 G가 잠재적 진실 그래프 G*에 독립적인 edge 삭제(p)와 추가(q) 과정을 통해 변형된다고 가정한다. 이때 단일 Jaccard 값은 편향된 추정량이지만, 여러 워크를 통한 경로 기반 평균은 “노드‑노드 간 잠재 Jaccard 근접도”를 추정하는 비편향 추정기로 작동한다. 실험에서는 SBM과 LFR 같은 합성 벤치마크, kNN 기반 데이터셋, 그리고 STRING 기반 고신뢰도 PPI 네트워크에 대해 친화도 행렬을 구축하고, 이를 Ward 계층 군집 및 kNN 분류에 적용했다. 결과는 ARI, NMI, AMI 등 정량 지표에서 기존 Jaccard·Dice, Personalized PageRank, Node2Vec 대비 동일하거나 우수한 성능을 보였으며, 특히 노드 수가 적고 평균 차수가 낮은 희소 그래프에서 강건성을 확인했다. 파라미터 민감도 실험에서도 워크 수(K)와 길이(T)만을 조정하면 충분히 안정적인 결과를 얻었으며, 추가적인 차원 축소(MDS)와 결합해 시각화까지 지원한다.
전체적으로 TopKGraphs는 (1) 파라미터가 2개뿐인 비모수적 방법, (2) 로컬 집합 겹침을 전역 구조로 확장하는 메커니즘, (3) 순위 기반 집계로 잡음에 대한 내성을 제공한다는 점에서 기존 확산 기반(PPR) 혹은 임베딩 기반(Node2Vec) 접근법을 보완한다. 다만, 전이 확률을 시작 노드 기준 Jaccard에만 의존하기 때문에, 매우 비대칭적 혹은 이질적인 메타데이터가 존재하는 이종 그래프에서는 추가적인 가중치 설계가 필요할 수 있다. 향후 연구에서는 Jaccard 외에 다른 구조적 유사도(예: Adamic‑Adar)와의 혼합, 그리고 GNN 파이프라인에의 직접 통합을 통해 성능을 더욱 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기