p진법 기반 새로운 군집 분류 기법
초록
본 논문은 전통적인 split‑LBG 알고리즘을 p‑adic 거리 체계에 맞게 변형한 군집화·분류 방법을 제시한다. 데이터 집합에 대해 먼저 군집을 형성하고, 이후 p‑adic 평균을 이용해 군집 중심을 계산함으로써 정의된 에너지 함수를 지역적으로 최소화한다. 흥미롭게도, 동일한 데이터에 대해 얻어지는 군집 구조는 소수 p에 거의 의존하지 않으며, 예외는 유한 개의 p에 한정된다. 최종적으로 이 방법을 p‑adic 분류기 설계와 기계 학습에 적용한다.
상세 분석
논문은 먼저 p‑adic 수 체계가 제공하는 초거리(ultrametric) 특성을 정리하고, 이를 기존의 Linde‑Buzo‑Gray(LBG) 알고리즘에 어떻게 통합할 수 있는지를 이론적으로 탐구한다. 기존 LBG는 유클리드 거리 기반으로 클러스터를 분할하고, 각 클러스터의 평균을 새로운 코드북으로 설정하는 반복 과정을 통해 전체 왜곡(distortion)을 최소화한다. 저자는 여기서 왜곡 함수를 p‑adic 거리 |·|ₚ에 대한 제곱합 형태의 에너지 함수 E(C,μ)=∑{x∈C} |x−μ|ₚ² 로 정의하고, 두 단계로 알고리즘을 재구성한다. 첫 단계에서는 현재 중심 집합 μ에 대해 각 데이터 포인트를 가장 가까운 중심에 할당하여 클러스터 C를 만든다(분할 단계). 두 번째 단계에서는 각 클러스터 C_i에 대해 p‑adic 평균 μ_i=∑{x∈C_i} x·w_x /∑_{x∈C_i} w_x 를 계산한다(중심 재설정 단계). 여기서 가중치 w_x는 필요에 따라 선택 가능하지만, 논문에서는 기본적으로 w_x=1을 사용한다.
핵심 정리는 “p‑independence theorem”으로, 동일한 데이터 집합에 대해 알고리즘이 수렴하는 클러스터 구조는 거의 모든 소수 p에 대해 동일하다는 것이다. 이는 p‑adic 거리의 계층적 구조가 클러스터 경계가 명확히 구분되는 경우, p값이 변해도 거리 순서가 바뀌지 않기 때문이며, 예외는 거리 차이가 정확히 p의 거듭제곱으로 나타나는 경우에 한정된다. 이러한 예외는 유한 개의 소수에만 발생하므로 실용적인 응용에서는 무시할 수 있다.
알고리즘의 수렴성은 에너지 함수 E가 매 반복마다 비감소하며, 가능한 클러스터링 경우의 수가 유한하므로 결국 고정점에 도달한다는 논증으로 보장된다. 복잡도 분석에 따르면, 각 반복 단계는 O(n·k) 연산에 그치며, 여기서 n은 데이터 수, k는 클러스터 수이다. p‑adic 연산 자체가 정수 연산으로 구현 가능하므로, 실제 실행 시간은 전통적인 유클리드 LBG와 비교해 큰 차이가 없으며, 오히려 정수 연산 특성상 메모리 사용량이 감소한다.
마지막으로, 저자는 이 군집화 결과를 이용해 p‑adic 분류기(classifier)를 구축한다. 학습 단계에서는 각 클래스에 대해 별도의 코드북을 학습하고, 테스트 단계에서는 입력 샘플을 모든 코드북에 대해 에너지 값을 계산한 뒤 최소값을 갖는 클래스로 할당한다. 실험 결과(논문에 제시된 시뮬레이션)에서는 기존 유클리드 기반 분류기 대비 잡음에 대한 강인성이 향상되었으며, 특히 데이터가 계층적 구조를 가질 때 성능 차이가 두드러졌다.
댓글 및 학술 토론
Loading comments...
의견 남기기