근접 이웃 영향 기반 새로운 클러스터링 알고리즘

근접 이웃 영향 기반 새로운 클러스터링 알고리즘

초록

본 논문은 ‘근접 이웃 영향(near neighbor influence)’ 개념을 도입해 클러스터링을 수행하는 CNNI 알고리즘을 제안한다. 데이터 포인트의 근접 이웃 집합과 각 이웃이 미치는 영향을 정량화하고, 이를 누적해 군집의 중심성을 판단한다. 실험 결과, 적절한 파라미터 설정 하에 기존 K‑means, DBSCAN 등과 비교해 군집 품질이 향상되는 경우가 많았다.

상세 분석

CNNI 알고리즘은 크게 네 가지 핵심 개념으로 구성된다. 첫째, ‘근접 이웃 점 집합(Near Neighbor Point Set)’은 반경 δ 이내에 존재하는 모든 데이터 포인트를 의미한다. 이는 밀도 기반 방법에서 ε‑neighborhood와 유사하지만, 여기서는 거리 함수 d(·,·)와 함께 가중치 w 를 부여해 각 이웃의 기여도를 차등화한다. 둘째, ‘근접 이웃 영향(Near Neighbor Influence)’은 각 이웃이 중심 후보에 미치는 영향을 정량화한 값으로, 보통 가우시안 커널 exp(−d²/σ²) 또는 역거리 1/d 형태로 정의된다. 셋째, ‘영향의 중첩 원리(Superposition Principle of Influence)’를 적용해 한 점에 대한 총 영향은 해당 점의 모든 근접 이웃으로부터 받은 영향의 합으로 계산된다. 마지막으로 ‘유사도 측정(Similarity Measure)’은 두 점 사이의 총 영향을 비교해 군집 결합 여부를 판단한다.

알고리즘 흐름은 다음과 같다. (1) 모든 데이터에 대해 δ 값을 정하고 근접 이웃 집합을 구축한다. (2) 각 점에 대해 이웃 영향 값을 계산하고, 누적 영향 I(p) 를 얻는다. (3) I(p) 가 사전 정의된 임계값 τ 이상을 가진 점들을 ‘핵심점(core point)’으로 선정한다. (4) 핵심점 간에 영향이 상호 교차하면 동일 군집에 할당하고, 나머지 비핵심점은 가장 큰 영향을 받은 핵심점에 귀속시킨다.

시간 복잡도는 근접 이웃 탐색 단계에서 O(n·k) (여기서 k 는 평균 이웃 수)이며, 전체 과정은 선형에 가깝다. 메모리 사용량도 이웃 리스트를 저장하는 정도로 제한적이다. 파라미터 δ 와 τ 의 선택이 결과에 큰 영향을 미치는데, 저자는 실험을 통해 데이터의 스케일에 맞춰 자동 조정 방법을 제안한다.

실험에서는 인공 데이터(구형·링형·불균형)와 7개의 실제 데이터(이미지, 텍스트, 생물학적 측정값)를 사용했다. 정량적 평가지표인 실루엣 점수와 정밀도·재현율을 기준으로, CNNI는 K‑means가 수렴하지 못하거나 DBSCAN이 노이즈를 과다하게 분리하는 경우에 우수한 성능을 보였다. 특히 복잡한 형태의 군집을 가진 데이터에서 근접 이웃 영향이 형태 정보를 보존하는 데 기여한다는 점이 강조된다. 그러나 파라미터 민감도가 높아 자동 튜닝이 필요하고, 고차원 데이터에서는 거리 계산 비용이 급증한다는 한계도 지적한다.

향후 연구 방향으로는 (1) 고차원 데이터에 대한 차원 축소와 결합한 효율적 근접 이웃 검색, (2) 동적 파라미터 적응 메커니즘, (3) 지도학습과의 하이브리드 모델링 등이 제시된다. 전반적으로 CNNI는 기존 밀도 기반 클러스터링의 단점을 보완하면서도 구현이 간단하고 확장성이 높은 방법으로 평가된다.