트리와 트리형 네트워크의 높은 모듈러리티
초록
이 논문은 트리와 트리형 네트워크가 모듈러티 측정에서 예상보다 매우 높은 값을 가질 수 있음을 보여준다. 비록 트리는 가장 희소한 연결 구조이지만, 모듈러티의 비국소적 널 모델이 트리 내부의 연결 밀도를 낮게 예상하기 때문에 실제 밀도가 크게 의미 있게 평가된다. 모델 트리와 실제 계보 데이터에 인기 있는 커뮤니티 탐지 알고리즘을 적용한 결과, 발견된 커뮤니티는 거의 최대에 가까운 모듈러티를 보이며 통계적으로도 유의함을 확인하였다.
상세 분석
모듈러티는 네트워크를 무작위 그래프(널 모델)와 비교하여 특정 파티션이 얼마나 밀집된 커뮤니티를 형성하는지를 정량화한다. 널 모델은 각 노드의 차수를 보존하면서 엣지가 무작위로 재배치된 그래프를 가정한다. 이때 기대 엣지 수는 두 노드의 차수 곱을 전체 엣지 수로 나눈 값으로 계산된다. 트리와 같은 희소 그래프에서는 대부분의 노드가 낮은 차수를 가지므로, 널 모델이 예측하는 기대 엣지 수가 매우 작다. 실제 트리에서는 각 노드가 정확히 하나의 부모와 연결되어 있기 때문에, 이 기대값 대비 실제 엣지 비율이 크게 높아진다. 결과적으로 모듈러티는 트리 내부의 서브트리를 ‘고밀도’ 커뮤니티로 인식하고, 높은 Q값을 부여한다.
논문은 먼저 완전 이진 트리와 균일한 가지수를 가진 임의 트리 모델을 사용해 이 현상을 이론적으로 분석한다. 수학적 증명을 통해 트리의 깊이와 분기 정도에 따라 모듈러티가 1에 arbitrarily 가까워질 수 있음을 보였다. 이어서 실제 계보 데이터(예: 영국 귀족 가계)를 대상으로 Louvain, Infomap, Leiden 등 최신 커뮤니티 탐지 알고리즘을 적용하였다. 모든 방법이 트리 구조에 맞는 파티션을 찾아내었으며, Q값은 0.8~0.95 사이로 매우 높았다.
통계적 유의성을 검증하기 위해 모듈러티의 표준화된 Z-점수를 계산한 결과, 트리 기반 파티션은 무작위 스파스 그래프 대비 유의미한 차이를 보였다. 이는 기존 연구에서 스파스 랜덤 그래프는 높은 모듈러티를 갖지 못한다는 결과와 일치한다. 따라서 모듈러티가 높은 것이 반드시 ‘실제’ 커뮤니티가 존재한다는 증거는 아니며, 특히 트리형 구조에서는 널 모델 자체가 부적절할 수 있음을 시사한다.
이러한 발견은 두 가지 중요한 함의를 가진다. 첫째, 모듈러티 기반 방법은 트리형 네트워크에서 과도한 커뮤니티 감지를 일으킬 위험이 있다. 둘째, 네트워크의 전반적인 토폴로지를 고려한 널 모델을 설계하거나, 모듈러티 외의 보조 지표(예: 내부 연결 비율, 커뮤니티 크기 분포)를 함께 활용해야 한다는 점이다. 논문은 또한 트리 구조가 실제 사회·생물학적 시스템(가계, 진화 트리 등)에서 어떻게 해석되어야 하는지에 대한 논의를 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기