클러스터링 프로세스와 비모수 일관성
초록
본 논문은 각 데이터 포인트가 정상 에르고딕 프로세스로부터 생성된 경우에 대한 클러스터링 문제를 다룬다. 동일한 분포에서 생성된 샘플은 같은 클러스터에, 다른 분포에서 생성된 샘플은 다른 클러스터에 배치하도록 하는 비모수적 일관성 개념을 제시하고, 클러스터 수가 알려졌을 때와 알려지지 않았을 때 각각의 상황에서 일관성을 보장하는 알고리즘을 제안한다.
상세 분석
이 연구는 전통적인 통계학에서 다루는 동질성 검정과 프로세스 분류 문제를 클러스터링이라는 보다 일반적인 프레임워크로 확장한다는 점에서 의미가 크다. 핵심 아이디어는 “두 샘플이 동일한 분포에서 생성되었을 경우에만 같은 클러스터에 속한다”는 강력한 일관성 정의를 도입하는 것이다. 이를 위해 저자들은 정상(Stationary)이고 에르고딕(Erogodic)인 프로세스들의 공동분포만을 가정한다. 즉, 마코프성, 파라메트릭 형태, 샘플 간 독립성 등 전통적인 가정을 전혀 요구하지 않는다.
논문은 먼저 클러스터 수 K가 사전에 알려진 경우를 다룬다. 이 상황에서는 각 샘플의 무한히 긴 관측값을 이용해 두 샘플 사이의 거리(metric)를 정의하고, 이 거리가 0이면 동일 분포, 0이 아니면 다른 분포라고 판단한다. 구체적으로, 저자들은 “empirical distributional distance”라는 개념을 도입한다. 이는 각 샘플의 관측값을 일정 길이의 블록으로 나누어 빈도수를 비교함으로써 정의되며, 정상·에르고딕 가정 하에서 샘플 길이가 무한히 커질 때 이 거리는 실제 분포 간 거리로 수렴한다. 따라서 거리 기반의 단순한 계층적 군집화(agglomerative clustering) 알고리즘을 적용하면, K개의 클러스터를 정확히 복원할 수 있다. 이 알고리즘의 시간 복잡도는 각 샘플 쌍에 대해 거리 계산을 수행하므로 O(N²·L) 정도이며, 여기서 N은 샘플 수, L은 관측 길이이다.
다음으로 클러스터 수가 미지인 경우를 살펴본다. 이 경우에는 거리 임계값을 어떻게 설정하느냐가 핵심 문제다. 저자들은 프로세스의 mixing rate, 즉 α‑mixing 혹은 β‑mixing 계수가 충분히 빠르게 감소한다는 추가 가정을 도입한다. 이러한 가정 하에서는 거리 추정치가 일정 수준 이하로 수렴하는 속도가 제어 가능해지며, 이를 이용해 자동으로 클러스터 수를 추정하는 절차를 설계한다. 구체적으로, 거리 행렬을 계산한 뒤, 특정 임계값보다 작은 거리들을 하나의 연결 요소로 묶어 클러스터를 형성한다. 임계값은 데이터의 전체 거리 분포와 mixing rate에 기반해 데이터‑드리븐하게 선택된다. 이 방법 역시 일관성을 보장하는데, 이는 거리 추정 오차가 클러스터 간 거리와 클러스터 내부 거리 사이의 갭보다 작아지는 경우에 해당한다.
이 논문의 가장 큰 공헌은 “정상·에르고딕만 있으면 충분하다”는 최소 가정 하에 일관적인 클러스터링 이론을 구축했다는 점이다. 기존 연구들은 보통 마코프 체인, i.i.d. 샘플, 혹은 특정 파라메트릭 모델을 전제로 했지만, 여기서는 전혀 그런 제한이 없다. 또한 제시된 알고리즘은 구현이 간단하고, 복잡도가 다항식 수준이므로 실용성도 높다. 다만, 실제 적용 시에는 샘플 길이가 충분히 길어야 거리 추정이 수렴한다는 점과, 미지의 클러스터 수 상황에서 mixing rate에 대한 사전 지식이 필요하다는 제한점이 있다. 이러한 점들을 보완하기 위한 향후 연구 방향으로는 비정상(non‑stationary) 프로세스에 대한 확장, 고차원 관측값에 대한 차원 축소 기법과의 결합, 그리고 실시간 스트리밍 데이터에 대한 온라인 버전 알고리즘 개발이 제시될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기