네트워크 모티프는 집합으로 나타난다
초록
본 논문은 네트워크 모티프 탐지 시 흔히 사용하는 엣지 스와핑 무작위화 방법이 서브그래프 개수를 서로 강하게 연관시킨다는 점을 밝힌다. 3·4노드 모티프를 E. coli와 S. cerevisiae 전사조절망에 적용해, 특정 서브그래프가 모티프가 되는 여부가 다른 서브그래프의 상태와 독립적이지 않음을 실증한다. 또한 정보이론적 상관측정 도구를 제시해 어떠한 크기의 서브그래프 간에도 상관관계를 정량화할 수 있음을 보여준다.
상세 분석
이 연구는 네트워크 모티프 분석의 근본적인 가정을 재검토한다. 전통적으로 모티프는 ‘실제 네트워크에서 통계적으로 과잉 나타나는 작은 서브그래프’로 정의되며, 이를 검증하기 위해 원본 네트워크와 동일한 노드·엣지 수를 유지하면서 무작위화된 네트워크 집합을 생성한다. 가장 널리 쓰이는 무작위화 기법은 엣지 스와핑(edge‑swapping)이다. 이 방법은 두 엣지를 선택해 그 종단을 교환함으로써 네트워크의 degree distribution을 보존한다. 그러나 저자들은 이러한 스와핑 과정이 서브그래프 카운트를 독립적으로 변동시키지 않으며, 오히려 특정 서브그래프의 감소가 다른 서브그래프의 증가와 강하게 연결된다는 사실을 발견했다.
구체적으로, 3노드 서브그래프(피드‑포워드 루프, 피드‑백 루프, 완전 연결 등)의 카운트를 추적하면, 스와핑 한 번에 발생하는 변동이 ‘피드‑포워드 루프 → 피드‑백 루프’ 혹은 ‘완전 연결 → 피드‑포워드 루프’와 같은 일대일 변환 형태로 나타난다. 이는 무작위화 과정 자체가 서브그래프 공간을 특정 방향으로 흐르게 만든다라는 의미다. 결과적으로, 어떤 서브그래프가 통계적으로 유의미한 모티프인지 판단할 때, 그 유의미성이 다른 서브그래프와의 상관관계에 의해 왜곡될 수 있다.
이 문제를 정량화하기 위해 저자들은 정보이론적 상관계수인 ‘상호 정보(mutual information)’를 도입했다. 두 서브그래프 A와 B의 카운트 분포를 각각 (P(A)), (P(B))라 할 때, (I(A;B)=\sum_{a,b}P(a,b)\log\frac{P(a,b)}{P(a)P(b)})를 계산한다. 이 값이 클수록 무작위화 과정에서 A와 B가 동시에 변동한다는 증거가 된다. 실험 결과, 3노드 서브그래프 쌍 사이에서는 몇몇 조합에서 높은 상호 정보가 관측되었으며, 4노드 서브그래프에서도 유사한 패턴이 발견되었다.
또한, 무작위화 알고리즘을 바꾸면(예: 마르코프 체인 기반의 다중 스와핑, 혹은 degree‑preserving rewiring) 상관 구조가 완화될 수 있음을 시사한다. 하지만 현재 널리 사용되는 단일 스와핑 방식은 이러한 상관을 무시하고 모티프를 독립적으로 평가한다는 점에서 근본적인 한계를 가진다. 따라서 모티프 연구자는 무작위화 과정이 서브그래프 카운트에 미치는 연쇄 효과를 고려하고, 필요 시 상호 정보를 보정 인자로 활용하거나, 보다 복합적인 무작위화 모델을 채택해야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기