다중덴드로그램을 이용한 복합 시스템 구조 패턴 분석
초록
본 논문은 네트워크에서 노드 간 유사성을 계층적 군집화할 때 발생하는 “동점(tie)” 문제를 해결하기 위해 변수‑그룹 방식을 적용한 다중덴드로그램(multidendrogram) 알고리즘을 제안한다. 기존의 이진 덴드로그램은 동점이 있을 경우 임의의 기준으로 끊어내어 결과가 불안정해지지만, 제안된 방법은 동일한 최소 거리(또는 최대 유사도)를 가진 여러 클러스터를 동시에 병합함으로써 유일하고 해석 가능한 트리를 만든다. 알고리즘 구현은 MultiDendrograms 소프트웨어로 제공되며, 정점 유사도, 모듈러 유사도, 완전 가중 네트워크 거리 등 다양한 사례에 적용해 그 유용성을 입증한다.
상세 분석
다중덴드로그램 알고리즘은 전통적인 pair‑group(두 클러스터씩 병합) 방식의 한계를 정확히 짚어낸다. 복잡계 네트워크는 이산적인 연결 구조를 갖기 때문에 두 노드 사이의 유사도 값이 제한된 집합에 머무른다. 이 경우 여러 쌍이 동일한 최소 거리(또는 최대 유사도)를 공유하게 되며, 기존 알고리즘은 임의의 순서나 기준에 따라 하나씩 선택해 이진 트리를 만든다. 결과적으로 동일 데이터에 대해 서로 다른 덴드로그램이 생성될 수 있고, 이는 해석의 일관성을 해치며, 특히 “동점 문제(ties in proximity)”라 불리는 현상이 심각하게 나타난다.
제안된 변수‑그룹(variable‑group) 접근은 이러한 동점을 그대로 인정하고, 동점에 해당하는 모든 클러스터를 한 단계에서 동시에 병합한다. 핵심 아이디어는 최소 거리값을 기준으로 “동점 집합”을 정의하고, 이 집합을 하나의 초클러스터로 취급해 새로운 거리(또는 유사도) 행렬을 계산하는 것이다. 이때 거리 계산은 사용자가 선택한 병합 기준(예: Unweighted Average, UPGMA 등)에 따라 수행되지만, 병합 대상이 두 개가 아니라 다수일 수 있다는 점이 차별점이다.
알고리즘의 주요 특성은 다음과 같다. 첫째, 동점이 전혀 없을 경우 기존 pair‑group 결과와 동일하게 동작한다. 둘째, 동점이 존재하면 병합 과정이 비이진 형태가 되므로 최종 덴드로그램은 “다중 분기(multidendrogram)” 형태를 띤다. 셋째, 이러한 다중 분기는 시각적으로도 명확히 표시되어, 사용자는 어느 단계에서 동점이 발생했는지를 바로 확인할 수 있다. 넷째, 다중덴드로그램은 유일한 해를 제공하므로 입력 순서나 임의의 tie‑breaking 규칙에 의존하지 않는다.
소프트웨어 구현 측면에서 저자들은 MultiDendrograms라는 공개 애플리케이션을 제공한다. GUI 기반의 데이터 선택, 다양한 군집화 옵션, 레이아웃 조정, 텍스트·Newick·이미지 파일 출력 등 실용적인 기능을 갖추고 있다. 또한 명령줄 인터페이스를 통해 스크립트 기반 자동화도 가능하도록 설계되었다.
실험에서는 세 가지 사례를 통해 알고리즘의 효과를 검증한다. 첫 번째는 정점 유사도(자카드와 Leicht 지표)를 이용한 계층적 네트워크와 Zachary 카라테 클럽 네트워크 분석이다. 두 네트워크 모두 유사도 값이 제한적이어서 다수의 동점이 발생했으며, 다중덴드로그램은 이러한 동점을 정확히 묶어 실제 커뮤니티 구조(예: 카라테 클럽의 두 파벌)와 정점 간 대칭성을 올바르게 재현한다. 두 번째 사례는 모듈러 유사도(다중 해상도 모듈러리티 기반)로 정의된 노드 간 유사도를 사용한 H13‑4 합성 네트워크 분석이다. 여기서는 해상도 파라미터 r에 따라 모듈이 변하는 과정을 정량화한 뒤, 다중덴드로그램이 네 단계의 계층적 구조를 정확히 포착함을 보여준다. 마지막으로 완전 가중 네트워크(포도 품종 간 유전 거리)에서 거리 값이 소수점 몇 자리까지 제한돼 동점이 폭발적으로 늘어나는 상황을 다룬다. 기존 이진 덴드로그램은 수천 개의 서로 다른 트리를 생성했지만, 다중덴드로그램은 하나의 일관된 트리를 제공하고, 정밀도(소수점 자리수) 변화에 따른 트리 구조 변화를 명확히 시각화한다.
이러한 결과는 다중덴드로그램이 복잡계 네트워크 분석에서 “동점” 문제를 근본적으로 해결하고, 결과의 재현성과 해석 가능성을 크게 향상시킨다는 강력한 증거가 된다. 특히 네트워크 과학, 생물정보학, 사회과학 등에서 유사도 기반 군집화가 빈번히 사용되는 분야에 직접적인 적용 가능성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기