네트워크 분석을 위한 두 단계 클러스터링 방법 재조명

이 논문은 1974년에 고안된 두 단계 클러스터링 절차—행·열 이중 표준화와 단일 연결 기반 계층적 군집화를—를 재조명하고, 1970~80년대에 인구 이동 흐름, 산업 입력‑출력, 범죄 전환 등 다양한 사회과학 데이터에 적용한 사례들을 종합한다. 첫 번째 단계는 내부 이주표(예: N × N 행렬)의 행과 열을 교대로 스케일링하여 모든 행·열 합을 동일한 값(보통 1)로 맞추는 과정이다. 이는 Sinkhorn‑Knopp 알고리즘에 해당하며, 비제로 원소만을 대상으로 행·열 승수를 반복적으로 조정한다. 수렴 조건은 행·열이 모두 양수이며, 희소 행렬이 ‘critically sparse’일 경우 수렴이 지연되거나 일부 승수가 0에 수렴할 수 있다. 이를 해결하기 위해 제로‑비제로 구조를 보정하는 스무딩 기법이 제안된다. 표준화된 행렬은 ‘doubly‑stochastic’ 특성을 가지며, 이는 원본 흐름을 최대 엔트로피 원칙에 따라 보존한다는 통계적 해석을 가능하게 한다. 두 번째 단계에서는 표준화된 행렬을 임계값에 따라 이진 그래프로 변환한다. 임계값을 낮출수록 더 많은 비제로 원소가 1이 되며, 그래프의 강한 연결 성분이 점차 합쳐진다. 이 과정은 전통적인 단일 연결(single‑linkage) 군집화와 동일한 계층적 구조를 만든다. 결과는 덴드로그램으로 시각화되며, 거리 척도는 초거리(ultrametric) 성질을 만족한다. 덴드로그램에서 가장 약한 레벨에 포함되는 지역들은 다른 지역과 폭넓은 교류를 보이는 ‘허브’로 해석된다. 실제 사례로는 프랑스 파리, 영국 런던, 이탈리아 밀라노, 독일 베를린, 러시아 모스크바, 캐나다 토론토 등 대도시가 반복적으로 허브로 식별되었다. 반면, 지리적으로 고립된 섬 지역(일본의 시코쿠·규슈, 이탈리아의 시칠리아·사르디니아, 뉴질랜드·뉴펀들랜드 등)은 강한 연결 성분으로 독립적인 군집을 형성한다. 알고리즘 구현 측면에서는 초기 FORTRAN 코드와 SAS 매크로가 소개되었으며, 이후 Tarjan이 제안한 O(M·log N)·log N 알고리즘과 O(M·log N) 알고리즘이 적용돼 계산 효율이 크게 향상되었다. 이는 수천·수만 노드·엣지를 갖는 대규모 흐름 네트워크에도 실용적으로 사용될 수 있음을 의미한다. 논문은 또한 1976년에 제안된 ‘멀티터미널’ 흐름‑최대‑절단(max‑flow/min‑cut) 접근법을 논의한다. 이 방법은 원본 비표준화 흐름 행렬에 직접 적용돼, 각 노드 쌍 사이의 최대 흐름과 최소 절단을 계산한다. 절단 집합이 비자명하게 두 개 이상의 노드 집합으로 나뉘는 경우, 작은 집합을 ‘노드 클러스터’로 정의한다. 예를 들어, 스페인 내의 바다호스 주는 외부 이주가 적어 작은 클러스터로 식별되었으며, 필리핀, 브라질, 멕시코 등에서도 유사한 패턴이 관찰되었다. 저자는 현대 네트워크 과학(Barabási의 스케일프리, 파워‑로우, 작은 세계 등)과 직접적인 연결 고리가 부족함을 인정하면서도, 흐름 데이터의 크기와 방향성을 보존하면서 구조적 특성을 드러내는 이중 표준화‑계층 클러스터링과 흐름‑절단 기법이 여전히 유용함을 강조한다. 특히, 지리적 거리와 사회적 상호작용이 결합된 내부 이동표와 같은 ‘origin‑destination’ 데이터에 대해, 허브와 고립 군집을 정량적으로 탐지하고, 그 통계적 유의성을 평가할 수 있는 이론적 기반을 제공한다. 마지막으로, 저자는 1985년 이후 해당 방법을 직접 사용하지 않았지만, 최근 네트워크 분석 서적과 Barabási와의 서신 교류를 계기로 이 연구를 재조명하고, 현대 연구자들에게 과거의 풍부한 사례와 알고리즘을 재활용할 것을 촉구한다.

네트워크 분석을 위한 두 단계 클러스터링 방법 재조명

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기