대규모 속성 이분 그래프에서의 확장 가능한 유사성 검색

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이분 그래프에서 노드 간 유사성을 효과적으로 측정하는 것은 추천 시스템 등 다양한 응용 분야에서 중요합니다. 기존 방법은 이분 그래프의 고유 구조를 제대로 반영하지 못하거나, 노드의 풍부한 속성 정보를 활용하지 못하며, 대규모 그래프에서 확장성에 한계가 있었습니다. 본 연구는 구조적 근접성과 속성 유사성을 통합한 새로운 유사도 측정 모델인 AHPP를 제안하고, 이를 효율적으로 계산하는 두 가지 국소 알고리즘(APP, ASRP)을 개발했습니다. 실제 및 합성 데이터셋에 대한 실험을 통해 제안 방법이 기존 15개 방법 대비 정확도와 속도에서 우수한 성능을 보임을 입증했습니다.

상세 분석

본 논문이 제안하는 AHPP 모델의 핵심 기여는 기존 이분 그래프 전용 유사도 모델인 HPP를 속성 정보로 확장한 데 있습니다. HPP는 ‘숨겨진 전이 행렬’을 통해 이분 그래프의 고차원 구조적 관계(예: 두 사용자가 공통으로 구매한 제품을 매개로 한 간접 연결)를 포착합니다. AHPP는 여기에 ‘속성 전이 행렬’을 추가로 도입합니다. 이 행렬은 두 노드가 공유하는 속성을 매개로 한 전이 확률을 계산하며, 예를 들어 ‘청소년’과 ‘여성’이라는 속성을 공유하는 사용자 간의 유사성을量化합니다.

최종 AHPP 유사도는 구조 전이 행렬과 속성 전이 행렬을 β 파라미터로 가중 합한 새로운 전이 행렬 P에 대한 Personalized PageRank로 정의됩니다. 이는 β 값을 조절하여 구조 정보와 속성 정보 간의 중요도 비중을 유연하게 조정할 수 있게 해줍니다. 또한 AHPP 점수는 α-속성-증강 숨겨진 랜덤 워크의 정착 확률로 해석 가능하여 모델의 직관성을 높였습니다.

주요 기술적 도전과제는 AHPP 유사도를 효율적으로 계산하는 것이었습니다. 전이 행렬 P를 명시적으로 구축하려면 O(|U|^2)의 시간이 필요해 대규모 그래프에서 불가능합니다. 논문은 이 문제를 근사적 단일-소스 AHPP 쿼리 문제로 정의하고, 두 가지 ‘푸시-스타일’ 국소 알고리즘을 제안했습니다. 첫 번째 APP 알고리즘은 전통적인 Forward Push 기술의 두 가지 관찰(잔차 전파의 등가성, 잔차 전파의 중복성)을 AHPP 설정에 맞게 재해석하고 최적화했습니다. 두 번째 ASRP 알고리즘은 APP를 확장하여 동기식 푸시 전략과 더 효과적인 종료 임계값을 도입, 근-선형 시간 복잡도를 달성했습니다. 두 알고리즘 모두 이론적으로 입증된 근사 보장을 제공합니다.

이러한 접근법은 임베딩 기반 방법의 높은 학습 비용과 정보 압축 문제, 그리고 기존 확산 기반 방법의 확장성 부족 문제를 동시에 해결합니다. 실험 결과, AHPP는 클러스터링 일관성, 정밀도, 링크 예측 등 다양한 태스크에서 F1-score 기준 8%~~12% 향상을 보였으며, 제안 알고리즘은 기존 방법 대비 1~~2자릿수 빠른 속도를 보였습니다.

대규모 속성 이분 그래프에서의 확장 가능한 유사성 검색

초록

상세 분석

댓글 및 학술 토론

의견 남기기