Title: Higher-order organization of complex networks
ArXiv ID: 1612.08447
발행일: 2018-01-08
저자: Austin R. Benson, David F. Gleich, Jure Leskovec
📝 초록 (Abstract)
네트워크는 물리학, 생물학, 신경과학, 공학 및 사회과학에서 복잡한 시스템을 이해하고 모델링하는 기본 도구입니다. 많은 네트워크는 개별 노드와 엣지 수준에서 포착할 수 있는 풍부한 하위 연결 패턴을 보여주지만, 작은 네트워크 서브그래프 수준의 고차 조직 구조에 대해서는 거의 알려져 있지 않습니다. 여기서 우리는 고차 연결 패턴을 기반으로 네트워크를 클러스터링하는 일반화된 프레임워크를 개발합니다. 이 프레임워크는 얻은 클러스터의 최적성에 대한 수학적 보장을 제공하며, 엣지가 수십억 개인 네트워크에서도 확장 가능합니다. 프레임워크는 신경망에서 정보 전파 단위와 교통 네트워크에서 허브 구조를 포함하여 여러 네트워크의 고차 조직 구조를 드러냅니다. 결과적으로, 클러스터링을 기반으로 하면 네트워크가 보여주는 고차 조직 구조가 풍부하다는 것을 알 수 있습니다.
💡 논문 핵심 해설 (Deep Analysis)
This paper introduces a framework for uncovering higher-order organizational structures in complex networks at the level of small subgraphs. The authors developed this method to address the limitation that existing network analysis tools are primarily focused on lower-level connections between individual nodes and edges, while higher-order patterns remain largely unexplored.
The core concept is clustering based on specific motifs (small subgraph patterns) within a network. By identifying clusters where these motifs occur frequently and minimizing their fragmentation across different clusters, the framework can reveal more intricate organizational structures than traditional methods. The authors achieved this by computing co-occurrence matrices for motifs and using spectral graph theory to optimize cluster boundaries.
The framework has been tested on various real-world networks with billions of edges, demonstrating its scalability and effectiveness in identifying higher-order patterns that were previously not apparent. For instance, it was applied to the C. elegans neuronal network to reveal clusters associated with information propagation units and also used in transportation networks to analyze hub structures.
This research provides a powerful tool for understanding how complex systems function at a deeper level, which can have broad applications ranging from biological networks to social and technological infrastructures.
📄 논문 본문 발췌 (Translation)
네트워크는 과학 전반에 걸쳐 데이터를 표현하는 표준적인 수단이며, 고차 연결 패턴은 많은 복잡한 시스템의 기본 구조를 이해하고 조절하는 데 필수적입니다. 가장 일반적인 고차 구조는 작은 네트워크 서브그래프로, 이를 네트워크 모티프라고 부릅니다(Figure 1A 참조). 예를 들어, 피드포워드 루프(Figure 1A \( `M_5` \))는 전사 조절 네트워크 이해에 기본적이고, 삼각 모티프(Figure 1A \( `M_1` \)–\( `M_7` \))는 사회 네트워크에서 필수적이며, 열린 양방향 와이드(Figure 1A \( `M_{13}` \))는 뇌의 구조적 허브에 중요하며, 이중 경로(Figure 1A \( `M_{8}` \)–\( `M_{13}` \))는 항공 교통 패턴 이해에 필수적입니다. 네트워크 모티프가 네트워크의 기본 단위로 인식되었음에도 불구하고, 모티프 수준에서의 네트워크의 고차 조직 구조는 여전히 개방적인 문제로 남아 있습니다.
이 논문에서는 고차 네트워크 구조를 이용하여 복잡한 시스템의 조직을 이해하는 데 새로운 통찰력을 얻습니다. 우리는 모티프 클러스터링을 위한 프레임워크를 개발합니다. 각각의 네트워크 모티프(Figure 1A)에 대해 다른 고차 클러스터가 드러나며, 선택한 모티프에 따라 다양한 조직 패턴이 노출됩니다.
개념적으로, 주어진 네트워크 모티프 ( M )에 대해 우리의 프레임워크는 두 가지 목표를 가지고 노드 집합 ( S )을 찾습니다. 첫째, ( S )의 노드들은 많은 ( M ) 인스턴스에 참여해야 합니다. 둘째, ( S )는 ( M ) 인스턴스를 잘라내지 않아야 합니다. 즉, 모티프에서 일부 노드만 ( S )에 포함되는 경우(Figure 1B 참조). 좀 더 정확하게, 주어진 모티프 ( M )에 대해 고차 클러스터링 프레임워크는 다음과 같은 비율을 최소화하는 클러스터(노드 집합 ( S ))를 찾습니다:
여기서 ( \bar{S})은 나머지 노드( ( S )의 보수), ( \hocut{S, \bar{S}} )는 ( M ) 인스턴스 중 ( S )와 ( \bar{S} )에 각각 하나 이상의 노드가 포함되는 것들의 수이고, ( \hovol{S})은 ( M ) 인스턴스 중 ( S )에 속한 노드들의 수입니다. 방정식 1은 스펙트럼 그래프 이론에서 가장 유용한 그래프 분할 점수인 conductance 메트릭의 일반화입니다.
모티프 conductance를 최소화하는 정확한 노드 집합 ( S )을 찾는 것은 계산적으로 실현 불가능합니다. 그러나 방정식 1을 근사적으로 최소화하고 따라서 고차 클러스터를 식별하기 위해, 우리는 수학적 보장이 있는 근접 최적 클러스터를 찾아내는 최적화 프레임워크를 개발했습니다(Supplementary Materials 참조). 스펙트럼 그래프 클러스터링 방법론을 확장하여 네트워크에서 고차 구조를 반영하도록 했습니다. 이 결과 방식은 전통적인 스펙트럼 그래프 클러스터링의 특성을 유지합니다: 계산 효율성, 구현 용이성 및 얻어진 클러스터의 근접 최적성에 대한 수학적 보장. 특히, 우리의 고차 클러스터링 프레임워크가 식별한 클러스터는 모티프 Cheeger 부등식을 충족하므로, 우리의 최적화 프레임워크는 최적에서 제곱인자만큼 떨어진 클러스터를 찾습니다.
알고리즘(Figure 1C 참조)은 다음과 같이 노드 집합 ( S )을 효율적으로 식별합니다:
Step 1: 주어진 네트워크와 관심 있는 모티프 ( M ), 모티프 인접 행렬 ( W_M )을 형성합니다. 여기서 행 ( (i,j))는 노드 ( i )와 ( j )가 모티프 ( M )에 포함되는 횟수입니다:
Step 2: 노드의 정규화 모티프 라플라시안 행렬을 통해 구성된 스펙트럼 순서 ( \sigma )를 계산합니다.
Step 3: 모티프 conductance가 가장 작은 접두 집합 ( S := \arg\min_{r} \hocond{M}{S_r})을 찾습니다, 여기서 ( S_r = \{\sigma_1, \ldots, \sigma_r\})입니다.
삼각형 모티프에 대해 이 알고리즘은 엣지가 수십억 개인 네트워크에서도 효율적으로 작동하고 일반적으로 그러한 크기의 그래프를 처리하는 데 몇 시간이 걸립니다. 작은 네트워크에서는 엣지가 수십만 개인 경우 모티프 크기 9까지 처리할 수 있습니다. 삼각형 모티프에 대한 알고리즘의 최악의 계산 복잡도는 ( \Theta(m^{1.5}) )이지만, 실제 사용 시에는 훨씬 빠릅니다. 16개의 실세계 네트워크를 분석한 결과 엣지 수 ( m )가 159,000에서 20억까지 변할 때 계산 복잡도는 ( \Theta(m^{1.2}) )로 나타났습니다. 또한 이 알고리즘은 쉽게 병렬화될 수 있으며 샘플링 기법을 사용하여 성능을 향상시킬 수도 있습니다.
이 프레임워크는 방향성, 비방향성 및 가중치 네트워크에 적용할 수 있으며 모티프도 포함됩니다. 또한 엣지에 양의 또는 음의 기호가 있는 네트워크에도 적용할 수 있습니다(사회 네트워크에서 친구와 적 또는 신뢰와 불신, 대사 네트워크에서 활성화 및 억제를 나타내는 에지 등). 이 프레임워크는 도메인 지식이 모티프에 대한 관심을 제시하는 네트워크의 고차 구조를 식별하는 데 사용할 수 있습니다. Supplementary Material에서는 미리 알려진 도메인 특정 고차 패턴이 없을 때 이 프레임워크가 어떤 모티프가 주어진 네트워크의 모듈화된 조직에 중요하다는 것을 식별할 수도 있음을 보여줍니다.
고차 네트워크 구조와 고차 네트워크 클러스터링 프레임워크.A: 고차 구조는 네트워크 모티프로 포착됩니다. 예를 들어, 모든 13개의 연결된 세 노드 방향성 모티프가 여기에 표시되어 있습니다.
B: 주어진 모티프 M에 대한 네트워크의 클러스터링. 특정 모티프 M에 대해 우리의 프레임워크는 노드 집합 S를 찾는 목표를 가집니다. 이 집합은 고차 conductance, ϕM(S),을 최소화합니다. 여기서 고차 conductance는 모티프가 자르는 수(채워진 삼각형이 자른)와 S 또는 S̄ 중 하나에서 모티프의 인스턴스에 포함된 노드의 최소 수의 비율입니다. 이 경우, 하나의 모티프가 자릅니다.
C: 고차 네트워크 클러스터링 프레임워크. 주어진 그래프와 관심 있는 모티프(이 경우에는 M7)에 대해 프레임워크는 모티프 인접 행렬(WM)을 형성하여 두 노드가 모티프의 인스턴스에서 몇 번 나타나는지 수를 계산합니다. 모티프 인접 행렬의 라플라시안 변환의 고유벡터를 계산합니다. 고유벡터의 성분이 제공하는 노드의 순서 σ는 크기 r가 증가하는 중첩 집합 Sr = {σ1, …, σr}을 생성합니다. 우리는 집합 Sr 중에서 고차 conductance가 가장 작은 것, 즉 ϕM(Sr),이 근접 최적 고차 클러스터임을 증명합니다.
*C. elegans* 신경망에서의 고차 클러스터링.A: 4노드 "bi-fan" 모티프, 이는 신경망에서 과도하게 표현됩니다.
B: *C. elegans* 전방 신경망의 최상위 고차 클러스터링. 이 클러스터에는 정보를 발신하는 세 개의 링 모터 뉴런(RMEL/V/R; 청색), 정보를 수신하는 여섯 개의 내부 래블라 감각 뉴런(IL2DL/VR/R/DR/VL; 오렌지) 및 중개자인 네 개의 URA 뉴런(보라색)이 포함됩니다. 이 RME 뉴런은 신경 링의 선두 주자가 제안되었습니다, IL2 뉴런은 nictation의 규제자로 알려져 있으며 고차 클러스터는 이러한 조직을 드러냅니다. 또한, RIH가 정보 처리의 중개자로서 중요한 역할을 하는 것을 보여줍니다. 이 뉴런은 세 개의 RME 뉴런으로부터 모든 연결을 받고 여섯 IL2 뉴런 중 다섯 개에 연결하며 클러스터에서 가장 많은 총 연결 수를 가집니다.
C: 전체 네트워크 컨텍스트에서의 고차 클러스터링. 노드 위치는 실제 두 차원 공간 임베딩입니다. 대부분 정보가 왼쪽에서 오른쪽으로 흐르며, RME/V/R/L과 RIH가 오른쪽 뉴런에 대한 정보를 발신하는 원천임을 볼 수 있습니다.
[[IMG_PROTECT_2]]
캐나다와 미국의 공항 네트워크에 대한 고차 스펙트럼 분석.A: 사용된 세 개의 고차 구조. 각 모티프는 파란 노드 i와 j로 "anchor"되어 있으며, 이 프레임워크는 이러한 두 노드를 함께 클러스터링합니다. 특별히, 모티프 인접 행렬은 (파란색) 세 개의 중개 노드(녹색 정사각형)에 기반하여 (i, j) 엣지에 무게를 추가합니다. 첫 번째 두 모티프는 고도로 연결된 도시를 나타내고 오른쪽의 모티프는 비허브를 연결합니다.
B: 미국에서 가장 인구가 많은 상위 50개 도시, 이들 노드에 해당. 엣지 두께는 모티프 인접 행렬 WM의 무게 비례합니다. 굵고 어두운 선은 인기 있는 메인 라우트에 대응하는 큰 무게를 나타냅니다.
C: 노드가 제공한 임베딩 WM의 정규화된 라플라시안에 대한 첫 번째 두 개의 비트리비얼 고유벡터의 구성요소. 표시된 도시는 8개의 큰 미국 허브(녹색), 서해안 비허브(빨간색) 및 동해안 비허브(보라색)입니다. 주요 스펙트럼 좌표(좌우)는 도시가 얼마나 핵심적인지, 두 번째 스펙트럼 좌표(상하)는 북미 항공 네트워크의 서-동 지리적 위치를 포착합니다.
D: 표준 엣지 기반(고차가 아닌) 정규화된 라플라시안에 대한 첫 번째 두 개의 비트리비얼 고유벡터의 구성요소로 노드가 제공한 임베딩. 이 방법은 고차 방법으로 찾은 허브와 지리를 포착하지 않습니다. 예를 들어, 가장 큰 허브인 애틀란타는 중앙에 위치하고, 비허브인 살리나 옆에 있습니다.