네트워크 구조 거리와 진화 관계
초록
정규화 라플라시안 스펙트럼을 확률분포로 변환하고 Jensen‑Shannon 발산으로 거리화한 새로운 구조 거리 측정법을 제안한다. 이 방법은 크기가 다른 네트워크 간에도 비교가 가능하며, 43개의 대사 네트워크에 적용했을 때 박테리아·고세균·진핵생물의 진화적 구분을 성공적으로 재현한다. 또한 인공적으로 진화시킨 그래프 집합에 대해 거리 기반 분할 네트워크를 만들면 원래의 진화 트리를 회복한다.
상세 분석
이 논문은 네트워크 구조를 정량화하는 데 있어 두 가지 핵심 아이디어를 결합한다. 첫 번째는 무가중·무방향 그래프에 정의되는 정규화 라플라시안(Δ)의 고유값 스펙트럼을 이용하는 것이다. 라플라시안 스펙트럼은 그래프의 전역적 특성(연결성, 클러스터링 등)뿐 아니라 특정 진화 메커니즘(예: 모티프 복제, 엣지 추가)에서 발생하는 국부 구조 변화를 고유값 형태로 반영한다. 특히 λ=1 근처에 다중 출현하는 고유값은 복제된 정점 쌍을, λ≈2에 가까운 값은 이분성 정도를 나타내어, 생물학적 네트워크에서 흔히 관찰되는 모듈화·중복 현상을 포착한다.
두 번째 아이디어는 두 스펙트럼을 확률밀도 함수로 변환한 뒤 Jensen‑Shannon(JS) 발산을 거리로 정의하는 것이다. KL 발산은 비대칭이고 0인 확률에 대해 정의되지 않지만, JS는 대칭이며 √JS가 실제 메트릭 성질을 만족한다. 따라서 D(Γ₁,Γ₂)=√JS(f₁,f₂) 라는 식으로 정의된 구조 거리는 크기가 다른 그래프라도 비교 가능하게 만든다.
실험에서는 43종의 대사 네트워크(세균·고세균·진핵)와 비교 대상으로 단백질‑단백질 상호작용, 신경망, 전력망을 선택했다. 각 네트워크의 라플라시안 스펙트럼을 Gaussian 커널(σ=0.01)로 부드럽게 한 뒤 히스토그램을 만들고, 위 거리 함수를 적용했다. 결과는 같은 도메인(예: 대사 네트워크) 간 거리가 현저히 작고, 서로 다른 도메인 간 거리는 크게 나타났다. 특히 대사 네트워크 3종은 서로 0.060.09 정도의 작은 거리이며, 단백질‑단백질 상호작용 네트워크와는 0.100.17, 신경망·전력망과는 0.45 이상 차이가 났다. 이는 제안된 거리 측정이 구조적 유사성을 정확히 포착함을 보여준다.
또한 인공적인 진화 실험을 위해 Barabási‑Albert 모델로 초기 그래프 A₀를 만들고, 각 세대마다 차수 보존 하에 무작위 재배선을 수행해 5세대까지 2⁵개의 그래프를 생성했다. 같은 세대에 속한 그래프들 간 거리 행렬을 기반으로 Neighbor‑Net 알고리즘을 적용하면, 그래프 간 분할 네트워크가 명확한 트리 형태를 보이며 원래의 진화 관계를 재구성한다. 이는 구조 거리 D가 진화적 신호를 보존한다는 강력한 증거다.
마지막으로 기존의 구조 비교 지표(전역·국부 중심성, 지름, 평균 경로 길이 등)와 모티프 Z‑스코어 기반 거리와 비교했다. 단순 벡터 차이 L2 노름을 이용한 D_para와 D_motif은 스펙트럼 기반 D에 비해 구분력이 떨어지고, 특히 크기가 다른 네트워크 간 스케일 차이를 보정하지 못한다. 반면 라플라시안 스펙트럼은 고유값이
댓글 및 학술 토론
Loading comments...
의견 남기기