계층적 군집 합병 알고리즘과 이중 부분 목표함수의 연결

본 논문은 최소 거리 병합 방식을 기반으로 하는 계층적 군집 합병 알고리즘을 일반화된 이중 부분 목표함수와 연결한다. 이 목표함수에서 파생된 알고리즘은 전통적인 단일·완전·평균 연결법 등과 동일한 병합 규칙을 갖지만, 최적화 관점에서 정당성을 부여받는다. 또한 군집 품질 평가와 병합 중단 기준을 목표함수 값으로 제시한다.

저자: Jan W. Owsiński

이 논문은 계층적 군집 합병 알고리즘을 일반적인 최적화 프레임워크와 연결하는 새로운 이론적 토대를 제시한다. 서론에서는 군집 문제를 “동일 클러스터 내 객체는 가깝고, 서로 다른 클러스터 간 객체는 멀다”는 직관적 정의로 정리하고, 이를 정량화하기 위해 거리 d₍ᵢⱼ₎와 유사도 s₍ᵢⱼ₎, 그리고 이진 변수 y₍ᵢⱼ₎(같은 클러스터 여부)를 도입한다. 목표함수 (2)는 y₍ᵢⱼ₎가 1일 때는 유사도 s₍ᵢⱼ₎, 0일 때는 거리 d₍ᵢⱼ₎를 가중합한 형태이며, 전역적인 군집 품질을 직접 측정한다. 기존의 많은 군집 알고리즘은 이러한 목표함수와 연결되지 않아 “외부 기준”에 의존하는 반면, 본 연구는 목표함수 자체를 최소 거리 병합 규칙에 매핑한다. 2절에서는 전통적인 계층적 군집 알고리즘의 일반적인 절차를 설명한다. 초기에는 각 객체를 개별 클러스터로 두고, 가장 작은 클러스터 간 거리(또는 유사도)를 찾아 병합한다. 병합 후 거리 행렬을 업데이트하는 단계가 핵심이며, 이 단계가 알고리즘마다 차이를 만든다. Lance‑Williams 공식(1)은 이러한 거리 업데이트를 파라미터 a₁, a₂, b, c 로 일반화한 식으로, 다양한 연결법(단일, 완전, 평균, Ward 등)을 하나의 수식으로 표현한다. 표 1은 대표적인 알고리즘에 대한 계수 값을 제시한다. 3절에서는 이러한 계층적 알고리즘과 최적화 사이의 관계를 고찰한다. 초기 연구(Florek 등, 1956)는 단일 연결법과 최소 신장 트리 사이의 연관성을 밝혀냈지만, 전체 계층적 알고리즘군에 대한 포괄적 최적성 이론은 부재했다. 최근 Dasgupta(2016)와 Cohen‑Addad 등은 전체 덴드로그램을 대상으로 한 목표함수를 제시했지만, 본 논문은 “분할” 즉, 최종 클러스터 집합 자체에 대한 목표함수와의 연결에 초점을 맞춘다. 4절에서는 Marcotorchino와 Michaud(1979, 1982)의 목표함수(2)를 소개한다. 이 목표함수는 거리와 유사도를 모두 고려하며, y₍ᵢⱼ₎의 전이성 제약(y₍ᵢⱼ₎+y₍ⱼᵥ₎−y₍ᵢᵥ₎≤1)으로 클러스터 일관성을 강제한다. 그러나 전이성 제약은 O(n³)개의 부등식이 필요해 계산적으로 어려움이 있다. 이를 해결하기 위해 목표함수를 파라미터 r 로 가중합한 형태 P(Q,r)=r·내부유사도+(1−r)·외부거리 로 재구성한다. 여기서 r은 거리와 유사도의 상대적 중요도를 조절한다. 5절에서는 일반적인 이중 부분 목표함수의 수식과, 이를 기반으로 한 계층적 병합 알고리즘 설계 원리를 제시한다. 핵심은 두 클러스터 A_q와 A_{q'} 사이의 “목표함수 감소량” ΔP_{qq'}를 계산하고, 가장 큰 ΔP를 갖는 쌍을 선택하는 최소 거리 병합과 동일하게 구현한다. 이때 ΔP_{qq'}는 Lance‑Williams 공식의 계수와 직접 연결되며, a₁, a₂, b, c 를 목표함수의 미분 형태에 맞게 설정하면 기존 알고리즘과 일치한다. 6절에서는 구체적인 목표함수 형태와 대응되는 알고리즘 예시를 다룬다. 예를 들어, s와 d의 로그 변환을 사용하면 a₁=a₂=½, b=0, c=0 인 단일 연결법이 도출된다. 거리의 제곱을 사용하면 Ward’s 방법(가중 평균 제곱 오차 최소화)과 일치하는 계수 a₁=n_{q*}/(n_q+n_{q*}), a₂=n_{q**}/(n_q+n_{q**}), b=−(n_{q*}·n_{q**})/(n_{q*}+n_{q**}) 가 얻어진다. 각 예시는 목표함수와 거리 업데이트 규칙이 어떻게 일치하는지를 수식과 표로 명확히 보여준다. 7절에서는 결론을 제시한다. 본 연구는 계층적 군집 알고리즘이 특정 목표함수의 근사 최적화라는 새로운 해석을 제공한다. 이를 통해 알고리즘 선택이 목표함수 설계와 직접 연결되며, 목표함수 값 자체가 군집 품질 지표가 된다. 또한 목표함수 기반 정지 기준을 도입함으로써 과도한 병합을 방지하고, 자동으로 적절한 클러스터 수를 결정할 수 있다. 현재 제시된 이론은 “부분 최적화” 수준에 머물지만, 향후 비선형·다중 스케일 목표함수와 그에 대응하는 거리 업데이트 규칙을 연구함으로써 보다 강력한 최적화 보장을 기대한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기