그래프는 사회 네트워크, 인용 네트워크, 분자 구조 등 다양한 도메인에서 복잡한 관계적 데이터를 표현하는 중요한 수단입니다. 이 연구에서는 질의 노드에 기반하여 밀접하게 관련된 커뮤니티를 식별하는 것을 목표로 하는 커뮤니티 검색(CS) 방법을 분석하고, 이를 통해 호모필리와 헤테로필리 그래프에서 효과적인 CS를 수행하기 위한 새로운 접근 방식인 AdaptCS를 제안합니다.
💡 논문 해설
1. **차별화된 거리 기반 집합** - 이 연구에서는 노드 간의 관계가 다양하게 나타나는 헤테로필리 그래프에서 효과적인 커뮤니티 검색을 수행하기 위해, 각 거리를 고려한 독립적인 정보 처리 방법을 제안합니다. 이를 통해 다른 클래스 사이의 잘못된 연결을 방지하고, 노드 간의 진정한 관계를 파악할 수 있습니다.
적응형 커뮤니티 스코어 (ACS) - 이 연구는 그래프 내에서 호모필리와 헤테로필리가 혼재하는 상황에서도 효과적인 커뮤니티 검색을 수행하기 위한 ACS를 제안합니다. ACS는 그래프의 근사된 호모필리 비율에 따라 연결성과 임베딩 신호 사이에서 적절한 균형을 유지할 수 있습니다.
저랭크 근사 최적화 - 이 연구에서는 메모리를 효율적으로 사용하고, 대규모 그래프에서도 효과적인 검색이 가능하도록 저랭크 근사 방법을 제안합니다. 이를 통해 단일 GPU에서 수백만 개의 엣지가 있는 그래프를 처리할 수 있습니다.
📄 논문 발췌 (ArXiv Source)
# 서론
그래프는 사회 네트워크, 인용 네트워크 및 분자 구조 등 다양한 도메인에서 복잡한 관계적 데이터를 표현하는 중요한 수단이다. 질의 노드에 기반하여 밀접하게 관련된 커뮤니티를 식별하는 것은 데이터베이스 영역 내에서 중요한 연구 주제이다. 존재하는 커뮤니티 검색(CS) 방법은 알고리즘 기반 및 머신 러닝(ML) 기반 접근 방식으로 대체로 분류될 수 있다. 알고리즘 기반 접근 방식은 $`k`$-core, $`k`$-truss 및 $`k`$-clique와 같은 구조적 결속력을 통해 밀접하게 연결된 노드를 식별하는 데 사용되는 그래프 이론 측정과 최적화 기준을 활용한다. 반면에, ML 기반 접근 방식은 작업 중심으로 작동하며 예측 모델을 활용하여 알려진 노드 레이블 또는 타입을 통해 커뮤니티를 명시적으로 정의한다. 학습된 임베딩을 활용함으로써, ML 기반 방법은 질의 노드와 관련된 노드를 효과적으로 식별하고 의미적 유사성과 클래스 일관성을 강조한다.
전통적인 그래프 알고리즘 및 신경 모델은 대체로 호모필리를 가정하는데, 연결된 노드는 서로 비슷한 속성을 공유하거나 같은 커뮤니티에 소속될 가능성이 높다는 것이다. 하지만 실제 세계의 그래프는 이 가정을 종종 위반하고, 엣지가 주로 다른 레이블이나 커뮤니티를 갖는 노드들 사이에 연결되는 헤테로필리 패턴을 보인다. 예를 들어, 인용 네트워크에서 노드는 논문을 나타내고 엣지는 인용 관계를 나타낸다: 도메인 내 인용은 호모필리를 반영하지만, 교차 도메인 인용은 지식 전달에 중요하다. 예를 들어 생물학 논문이 서브그래프 매칭 작업을 분석하는 데이터베이스 작업을 인용하거나 의료 논문이 방사선 이미지 분석을 위해 AI 비전 모델을 인용할 수 있다. 유사한 헤테로필리 패턴은 많은 실제 시나리오에서 나타난다: 사기꾼들은 보통 정상적인 사용자와 상호작용하고, 정치적 논의는 종종 서로 다른 견해를 가진 사람들 사이에서 발생하며, 분자 그래프에서 단백질은 다양한 성질을 갖는 다양한 아미노산으로 구성된다.
/>
세 가지 대표적 패러다임의 한계. 노드 색상은 커뮤니티를 나타내며, 파란색/빨간색 엣지는 실제로 관찰되지 않는 호모필리/헤테로필리 링크를 의미한다.
기존 해결책. 헤테로필리 하에서 CS를 직접적으로 다룬 기존 연구는 없지만, 데이터베이스 및 AI 커뮤니티에서는 헤테로필리 노드 분류 작업을 광범위하게 연구해왔다. 이러한 통찰력을 활용하여 헤테로필리와 관련된 기존 방법은 크게 세 가지 패러다임으로 구분될 수 있다: (a) 알고리즘 기반 접근 방식은 순수한 구조적 결속력에만 의존하고, 호모필리를 인지하지 못한다. 예를 들어 $`k`$-core, $`k`$-truss 및 $`k`$-clique 등이 있다; (b) 호환성 행렬 기반 레이블 전파 방법은 원래 헤테로필리 노드 분류를 위해 개발되었으며, 호환성 행렬을 통해 클래스 간 관계를 모델링한다. 이러한 접근 방식은 추론된 호환성 패턴을 사용하여 질의 주변에서 커뮤니티 확장을 가이드함으로써 CS에 적용될 수 있다; (c) ML 기반 일반 솔루션에서는 헤테로필리에 초점을 맞춘 GNN 프레임워크 (예: FAGCN, ACM 및 ALT)를 ML 기반 CS 모델에 통합하여 호모필리를 처리한다. 이러한 패러다임은 유용한 통찰력을 제공하지만, 헤테로필리 CS에 적용될 때 근본적인 제한이 있다.
(a) 알고리즘 기반. 전통적인 구조 중심 알고리즘 ($`k`$-core, $`k`$-truss 및 $`k`$-clique 등)은 순수하게 그래프 이론적 제약 조건을 통해 밀집된 서브그래프를 식별한다. 그러나 노드 레이블이나 엣지 부호에 접근하지 못하면 이러한 방법은 헤테로필리 그래프에서 혼합 레이블 커뮤니티를 생성하게 되며, 이 때 엣지는 종종 다른 속성을 갖는 노드들 사이에 연결된다. 1(a)에서 보듯이 알고리즘은 구조적 밀도를 기반으로 근처의 노드를 동일하게 집계하므로 종종 관련 없는 노드들을 포함한다.
(b) 호환성 행렬 기반 레이블 전파 ($`H`$-기반). 이 접근 방식은 헤테로필리 노드 분류에서 원래 정의되었거나 통계적으로 학습된 호환성 행렬을 통해 엣지를 넘어서 레이블들이 어떻게 상호작용하는지를 모델링한다. 추론된 행렬은 호모필리를 가정하지 않는 레이블 간 전파를 가능하게 하며, 질의 노드에서 동일한 커뮤니티를 공유할 것으로 예측되는 다른 노드로 확장하여 CS에 자연스럽게 적용될 수 있다. 그러나 호환성 행렬 $`H`$는 사전 정의되거나 전역적으로 최적화되어 있어 그래프 전체에 고정되고, 국소적인 헤테로필리 변동에는 적응하지 못한다. 1(b)에서 보듯이 질의 노드 $`v_q`$는 양성 연결이 주로 나타나는 한 지역과 음성 연결이 주로 나타나는 다른 지역을 동시에 연결하며, 이들 지역은 호모필리 수준이 상반되어 있어 단일 전역적인 $`H`$가 정확히 포착하기 어렵다. 따라서 이러한 모델은 호환되지 않는 영역에서 신호를 잘못 확산시키고 헤테로필리 엣지 의미학을 갖는 커뮤니티를 검색하는 데 실패할 가능성이 있다.
(c) ML 기반 CS (헤테로필리 확장). 최근의 ML 기반 커뮤니티 검색 모델(예: ICSGNN, QDGNN 및 COCLEP 등)은 암묵적으로 호모필리를 가정하여 헤테로필리 그래프에 일반화하는 데 실패한다. 그러나 FAGCN, ACM 및 ALT와 같은 일반적인 헤테로필리를 인지한 GNN을 이러한 모델의 확장으로 적용할 수 있다. 그러나 이들의 집합은 거리 무시 방식이며, 여러 단계 신호는 층을 통해 재귀적으로 혼합되어 다중 클래스 설정에서 “Flip Effect” (1)를 발생시킨다. 1(c)에서 보듯이, 질의 노드 $`v_q`$의 헤테로필리 이웃인 $`v_1`$과 $`v_2`$를 고려해보자. 모델이 여러 단계에 걸친 메시지를 혼합하므로 두 단계 경로 $`v_1\overset{-}{\longleftrightarrow}v_q\overset{-}{\longleftrightarrow}v_2`$는 서로 다른 레이블을 가진 $`v_1`$과 $`v_2`$ 사이에 거짓 긍정 관계를 만들어 낸다.
도전 과제. 세 가지 패러다임은 각각 다르게 작성되었지만, 모두 헤테로필리 그래프에서 근본적인 제한을 공유한다:
알 수 없는 엣지 의미학. 실제 세계의 헤테로필리 그래프는 대부분 엣지에 명시적인 극성이나 의미를 제공하지 않지만, 효과적인 커뮤니티 검색은 “긍정적” 또는 “부정적” 연결을 식별하는 데 필요한 정보를 추론해야 한다.
다중 단계 일관성 부족 (Flip Effect). 거리 정보를 명시적으로 구분하지 않고 다중 단계 메시지를 집합하면 짝수 단계 경로에서 의미가 반전되어 서로 다른 클래스 사이에 잘못된 관계를 생성한다.
적응력 부족. 헤테로필리 그래프는 일반적으로 혼합된 호모필리와 헤테로필리 지역을 포함하며, 견고한 모델은 각각의 그래프 및 질의에 동적으로 적응해야 하며 위상적 일관성과 의미적 일관성을 균형 있게 유지해야 한다.
우리의 해결책. 이러한 도전 과제를 해결하기 위해 우리는 AdaptCS (Adaptive Community Search)를 제안한다. 이는 그래프 인코딩 및 온라인 검색을 구성하는 두 단계 프레임워크이다. 인코딩 단계에서 AdaptCS 인코더는 중복 없이 정확한 $`k`$-hop 이웃을 추출하기 위해 적응형 마스킹을 적용한다. 이를 통해 각 채널은 고정된 거리의 노드 정보만 포함하도록 한다. 이러한 거리를 인지하는 분해를 통해 다중 단계에서의 정보 처리가 이루어져 Flip Effect를 피할 수 있다. 결과적으로 도출되는 훅 특성들은 주파수에 따른 필터링을 통해 저주파 (гладкий, 호모필리) 및 고주파 (негладкий, 헤테로필리) 성분으로 분리된다. 마지막으로 가벼운 2차원 채널 믹서는 훅과 주파수 채널을 간결한 노드 임베딩으로 융합하여 로컬 상세와 장거리 컨텍스트를 모두 유지한다. 더 나아가 확장성을 개선하기 위해 AdaptCS는 모든 훅 특성들을 잠재 공간에서 계산하는 메모리 효율적인 저랭크 최적화 방법을 활용하며, 명시적인 고차 인접성의 물질화 및 주요 효율성 병목 현상을 제거한다. 온라인 검색 단계에서는 AdaptCS는: (i) 학습된 임베딩으로 긍정 그래프를 구성하고 그에 따라 CS를 수행하는 Signed Community Search (SCS), 그리고 (ii) 그래프의 근사 호모필리 비율에 따라 임베딩 기반 유사성 및 위상적 관계 사이에서 동적으로 균형을 맞추는 Adaptive Community Score (ACS)를 포함한다. 높은 호모필리에서는 ACS가 연결성을 더 많이 고려하고, 낮은 호모필리에서는 임베딩 신호에 더 의존한다. 본 논문의 주요 기여는 다음과 같다:
이 연구는 헤테로필리 그래프에서 커뮤니티 검색 문제를 해결하기 위해 첫 번째 시도이며, 변동하는 헤테로필리 수준을 처리하면서 Flip Effect를 완화할 수 있는 다중 단계 집합 방법을 제안한다.
우리는 호모필리와 헤테로필리 그래프 구조 모두에서 견고한 커뮤니티 검색 성능을 유지하는 Adaptive Community Score (ACS)를 제안한다.
우리는 메인 효율성 병목 현상을 제거하고 단일 GPU에서 수백만 개의 엣지가 있는 그래프까지 확장 가능한 저랭크 근사 최적화 방법을 제안한다.
실제 세계의 그래프에 대한 실험은 상태-of-the-art 기준 모델보다 커뮤니티 검색 정확도, 견고성 및 계산 효율성이 일관되게 향상되었다는 것을 보여준다.
관련 연구
알고리즘 기반 커뮤니티 검색. 전통적인 커뮤니티 검색 알고리즘은 그래프 내에서 커뮤니티를 식별하기 위해 다양한 결속력 메트릭을 활용한다. $`k`$-core, $`k`$-truss 및 $`k`$-clique와 같은 메트릭들은 미리 정의된 구조적 기준을 충족하는 서브그래프를 효과적으로 식별하기 위해 사용된다. 예를 들어 $`k`$-core 메트릭은 각 노드가 서브그래프 내에서 최소한 $`k`$ 개의 연결을 갖는 서브그래프를 식별하며, 일정 수준의 내부 연결성을 보장한다. $`k`$-truss는 삼각형 존재에 초점을 맞추며 각 엣지가 최소 $`k-2`$ 개의 삼각형을 포함하는 서브그래프를 식별하여 더 높은 차원의 결속력을 포착한다. 이러한 방법들은 속성 그래프로 확장되어 노드 속성을 구조적 고려사항과 함께 결합해 유사한 특성을 갖는 노드들의 커뮤니티를 식별할 수 있다.
머신 러닝 기반 커뮤니티 검색. GNN의 도입은 커뮤니티 검색을 위한 유연하고 표현력이 강한 모델을 소개하며, 위상 구조와 노드 속성 모두에서 기여를 균형 있게 배분할 수 있다. ICSGNN과 같은 모델들은 내용 및 구조적 특징을 결합하여 GNN을 통해 노드 간의 유사성을 포착한다. 이러한 접근 방식은 사용자 피드백에 의해 가이드되는 대상 커뮤니티를 상호 작용하고 반복적으로 발견할 수 있게 한다. 마찬가지로 QDGNN은 고정된 데이터셋에서 학습하는 오프라인 설정을 활용하며 속성 인코더를 채택하여 특정 속성을 갖는 노드 그룹을 식별하기 위해 속성 커뮤니티 검색으로 확장한다. ALICE와 COCLEP과 같은 다른 모델들은 교차 주의 인코더 및 대조 학습과 같은 고급 기술을 통합하여 속성 그래프에서 커뮤니티 검색의 표현력과 효율성을 향상시킨다. 최근에는 SMN 및 CommunityDF가 이 연구를 더욱 발전시키고 있다: SMN은 부분 공간 임베딩을 통해 겹치는 커뮤니티 검색에 대한 일반적인 솔루션을 제안하고, CommunityDF는 대조 학습과 동적 임계값 설정을 활용하여 쿼리 중심 서브그래프를 반복적으로 정교화하는 생성 확산 기반 프레임워크를 소개한다.
헤테로필리 그래프에서의 학습. 또 다른 연구는 호환성 행렬을 통해 엣지를 넘어서 클래스 간 상호작용을 모델링함으로써 고전적인 레이블 전파를 헤테로필리 설정에 확장한다. LinBP는 전역 행렬 $`H`$를 활용하여 호모필리와 헤테로필리를 지원하는 선형 시스템으로 신념 전파를 재구성하고, FactorLP는 라벨 데이터에서 행렬 분해를 통해 $`H`$를 학습한다. 이러한 접근 방식은 전파의 해석 가능성과 효율성을 유지하지만 그래프 전체에 대해 글로벌 선형이며 국소적 헤테로필리에 적응하거나 노드 속성 활용을 할 수 없다.
전파 모델을 넘어서, 최근 GNN 기반 방법들은 헤테로필리 하에서의 견고성을 높이기 위해 메시지 전달을 확장하거나 가중치를 조정하여 고차 및 유연한 종속성을 포착한다. Geom-GCN, MixHop 및 GPRGNN과 같은 접근 방식은 이와 관련된 아이디어를 활용하며, FAGCN은 클래스 간 관계를 모델링하기 위해 부호화 엣지 가중치를 도입한다. ACM 및 ALT와 같은 일반 프레임워크는 다중 채널 전파의 적응적 결합 또는 그래프 구조 최적화를 통해 GNN이 그래프 헤테로필리를 처리할 수 있도록 확장한다.
예비 지식
$`G=({V,E})`$는 노드 집합 $`{V}`$와 엣지 집합 $`{E}`$를 갖는 무방향 그래프이다. $`n = |{V}|`$, $`m = |{E}|`$은 각각 노드와 엣지의 수를 나타낸다. 주어진 노드 $`u \in {V}`$에 대해, $`{N}_u=\{v|(u, v) \in {E} \}`$는 $`u`$의 이웃 집합이다. 그래프 $`G`$의 인접 행렬은 $`{A} \in \{0, 1\}^{n\times n}`$, 즉 $`(v_i, v_j) \in {E}`$일 때 $`{A}_{i,j} = 1`$, 그렇지 않으면 $`{A}_{i,j} = 0`$로 표현된다. $`{X} \in \mathbb{R}^{n \times d}`$는 노드 특징 집합이며, $`d`$는 특징의 차원이고 $`{x}_i`$는 $`v_i`$의 노드 특성을 나타낸다. 우리는 $`{Z} \in \mathbb{R}^{n \times c}`$를 라벨 인코딩 행렬로 사용하며, 이는 각각의 $`i`$번째 행이 $`v_i`$의 라벨의 원-핫 인코딩이고 $`c`$는 라벨의 차원을 나타낸다. 주어진 질의 노드 $`q`$, CS 문제는 ML 모델에 의해 학습된 임베딩 유사성을 최대화하면서 그래프 $`G`$에서 $`\mathcal{K}`$ 크기의 노드 집합을 찾아내는 것이다.
문제 정의
헤테로필리 그래프의 주요 특징은 주어진 노드 $`u`$에 대해 그 대부분의 이웃이 다른 커뮤니티 라벨을 갖는다는 것이며, 즉 $`P(v \in N_u \mid z_v \neq z_u) > P(v \in N_u \mid z_v = z_u)`$, 여기서 $`N_u`$는 노드 $`u`$의 이웃 집합이다. 이는 정보 전파가 호모필리 설정에서와 같이 이웃 노드들이 더 가능성이 높게 같은 클래스에 속하는 것과 다르다는 것을 의미한다. 그래프 내 헤테로필리 수준을 정량화하기 위해 엣지 호모필리 메트릭 $`h_{edge}(G)`$를 다음과 같이 정의한다:
헤테로필리 그래프는 $`h_{edge}(G)`$가 낮으며, 대부분의 엣지가 다른 커뮤니티 라벨을 갖는 노드들 사이에 연결된다. 기존 ML 모델에서 CS 정의를 따르면 다음과 같이 CS를 정의한다:
문제 정의 1 (커뮤니티 검색(CS)). 그래프 $`G = (V, E)`$, 질의 노드 $`q`$ 및 목표 커뮤니티 크기 $`\mathcal{K}`$가 주어진 경우, CS 작업은 질의 노드 $`q`$와 의미적으로 일치하는 노드 집합 $`V_c \subseteq V`$를 식별하는 것을 목표로 한다.