정지 과정 클러스터링의 일관성 이론과 알고리즘

각 데이터 포인트를 정상적인 확률 과정으로 보는 클러스터링 문제를 다룬다. 저자는 “같은 분포에서 생성된 샘플은 같은 클러스터에 속한다”는 자연스러운 일관성 정의를 제시하고, 이를 만족하는 단순하고 다항 시간(최대 이차) 알고리즘을 제안한다. 클러스터 수가 알려진 경우는 어떠한 파라메트릭 가정도 없이 정지·에르고딕성만으로 일관성을 보장하고, 클러스터 수가 미지인 경우에는 혼합률(α‑mixing) 제한을 추가로 가정하면 일관성을 얻을 수 있음을 …

저자: Daniil Ryabko (INRIA Lille - Nord Europe)

본 논문은 각 데이터 포인트가 정상적인 확률 과정(정지·에르고딕)으로부터 추출된 시계열이라는 설정에서 클러스터링 문제를 새롭게 정의한다. 기존 클러스터링 연구는 주로 파라메트릭 모델(가우시안, 히든 마코프 등)이나 독립성 가정을 전제로 하지만, 저자는 이러한 제한을 완전히 배제하고 오직 정지·에르고딕성만을 가정한다. 먼저, 두 과정 ρ₁, ρ₂ 사이의 차이를 정량화하기 위해 ‘분포 거리’ d를 도입한다. 이는 가중합 형태의 무한 합으로, 모든 유한 길이의 단어(또는 실수 구간) 집합 B에 대해 |ρ₁(B)−ρ₂(B)|를 가중치 w_m w_l으로 합산한다. 이 거리는 메트릭이며, 두 과정이 동일하면 0이 된다. 실제 데이터에서는 무한히 긴 합을 직접 계산할 수 없으므로, 경험적 거리 ˆd를 정의하고, Lemma 1을 통해 ˆd가 샘플 길이가 무한히 커질 때 d에 거의 surely 수렴함을 증명한다. 이 결과는 정지·에르고딕성만으로도 충분히 확률적 수렴을 보장한다는 핵심적인 통계적 사실이다. 다음으로 클러스터링 정의를 명확히 한다. N개의 샘플 x₁,…,x_N이 주어지고, 각 샘플은 k개의 미지의 정지·에르고딕 분포 ρ₁,…,ρ_k 중 하나에서 생성된다. 목표는 같은 분포에서 나온 샘플들을 동일 클러스터에 배정하는 것이다. 일관성은 두 형태로 정의된다. ‘강한 일관성’은 최소 샘플 길이 n이 충분히 커지면 확률 1로 정확한 클러스터링을 반환하는 것이고, ‘약한 일관성’은 n→∞일 때 정확한 클러스터링을 반환할 확률이 1에 수렴하는 것이다. 클러스터 수 k가 알려진 경우, Algorithm 1을 제시한다. 첫 샘플을 첫 클러스터에 할당하고, 아직 할당되지 않은 샘플 중 현재 클러스터에 가장 먼 샘플을 찾아 새로운 클러스터의 대표점으로 만든다. 이를 k번 반복해 k개의 대표점을 확보한다. 이후 남은 모든 샘플을 각 대표점과의 경험적 거리 ˆd가 최소가 되는 클러스터에 할당한다. 이 알고리즘은 초기화 단계에서 ‘가장 멀리 떨어진’ 샘플을 선택함으로써 서로 다른 분포를 잘 구분하도록 설계되었으며, 각 단계가 O(N²) 이하의 연산량을 요구한다. 정리 2는 이 알고리즘이 앞서 정의한 강·약 일관성을 모두 만족함을 증명한다. 클러스터 수가 미지인 경우, 동일한 거리 기반 접근을 사용하되, 두 샘플이 같은 분포에서 왔을 때 거리 차가 0에 수렴하고, 다른 분포일 경우 양의 하한을 갖는다는 사실을 이용한다. 이를 위해 α‑mixing 계수 α_n이 알려지고 α_n→0이라는 추가 가정을 둔다. 이러한 가정 하에 임계값 τ_n을 α_n에 따라 적절히 설정하면, 거리 ˆd가 τ_n 이하인 샘플들은 동일 클러스터에, 초과하면 다른 클러스터에 할당한다. 정리 3은 이 방법이 약한 일관성을 보장함을 보여준다. 논문은 또한 이 프레임워크가 기존의 동질성 검정(두 샘플 문제)과 프로세스 분류(세 샘플 문제)를 일반화한다는 점을 강조한다. 동질성 검정은 k=1 또는 2인 경우와 동일하고, 프로세스 분류는 k=2인 경우와 동일하다. 기존 연구에서는 i.i.d. 혹은 마코프 가정 하에 해결책이 제시되었지만, 여기서는 정지·에르고딕성만으로 충분함을 보인다. 계산 복잡도 측면에서 제안된 알고리즘은 경험적 분포 거리의 무한 합을 효율적으로 근사할 수 있는 방법을 제시한다. 구체적으로, 각 단계에서 필요한 B_{m,l} 집합을 유한 개만 고려해도 전체 거리의 오차를 ε 이하로 제한할 수 있음을 보이며, 이는 실제 구현이 가능함을 의미한다. 마지막으로, 논문은 압축 기반 거리(예: Kolmogorov 복잡도 기반)와 같은 다른 거리 함수에도 동일한 일관성 이론을 적용할 수 있음을 시사한다. 또한, 실제 데이터에 대한 실험이 아직 수행되지 않았으며, α‑mixing 가정이 현실적인 데이터에 얼마나 부합하는지에 대한 검증이 필요하다는 한계를 인정한다. 향후 연구에서는 알고리즘의 파라미터 최적화, 실험적 평가, 그리고 보다 일반적인 비정지·비에르고딕 과정에 대한 확장 등을 제안한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기