면역 알고리즘 기반 무감독 군집 분류

본 논문은 클론 선택 원리를 이용한 무감독 군집화 알고리즘인 UCSC(Unsupervised Clonal Selection Classification)를 제안한다. UCSC는 데이터에 따라 파라미터를 자동 조정하는 자기 적응형 구조를 갖추어 K‑means 대비 빠른 수렴과 높은 분류 정확도를 보인다. 인공 및 실제 데이터셋 실험 결과, UCSC가 K‑mea

면역 알고리즘 기반 무감독 군집 분류

초록

본 논문은 클론 선택 원리를 이용한 무감독 군집화 알고리즘인 UCSC(Unsupervised Clonal Selection Classification)를 제안한다. UCSC는 데이터에 따라 파라미터를 자동 조정하는 자기 적응형 구조를 갖추어 K‑means 대비 빠른 수렴과 높은 분류 정확도를 보인다. 인공 및 실제 데이터셋 실험 결과, UCSC가 K‑means보다 안정적이며 정밀도가 우수함을 확인하였다.

상세 요약

UCSC는 면역학의 클론 선택 이론을 군집화 문제에 적용한 메타휴리스틱이다. 먼저 데이터 포인트들을 ‘항원’으로 보고, 후보 군집 중심들을 ‘항체’로 모델링한다. 각 항체는 다차원 실수 벡터로 표현되며, 항체와 항원의 친화도(affinity)는 일반적으로 유클리드 거리의 역수 혹은 실루엣 점수와 같은 군집 품질 지표로 정의된다. 알고리즘은 초기 무작위 항체 집합을 생성한 뒤, 친화도가 높은 상위 항체들을 선택해 복제(cloning)한다. 복제된 항체들은 복제 비율에 따라 다중 복제본을 만들고, 이후 변이(mutation) 과정을 거친다. 변이는 두 단계로 구분되는데, 첫 번째는 ‘고변이(hypermutation)’ 단계로, 친화도가 낮은 항체에 대해 큰 폭의 변이를 적용해 탐색 범위를 넓힌다. 두 번째는 ‘저변이(low‑mutation)’ 단계로, 친화도가 높은 항체에 대해 작은 폭의 변이를 적용해 해의 정밀도를 높인다. 변이 크기는 현재 세대의 평균 친화도와 데이터 분산을 이용해 동적으로 조정되며, 이를 통해 알고리즘이 데이터 특성에 스스로 적응한다.

UCSC의 핵심 자기 적응 메커니즘은 파라미터 자동 조정이다. 전통적인 군집화 알고리즘은 군집 수(k)와 초기 중심점 선택 등 고정 파라미터에 크게 의존한다. 반면 UCSC는 클론 수, 복제 비율, 변이 스케일 등을 데이터의 통계적 특성(예: 평균 거리, 표준편차)과 현재 세대의 성능 지표를 기반으로 실시간 업데이트한다. 이러한 설계는 초기값에 대한 민감도를 크게 낮추고, 복잡한 데이터 구조(비구형, 잡음이 많은 데이터)에서도 안정적인 수렴을 가능하게 한다.

수렴 판단은 일정 세대 동안 친화도 향상이 미미하거나, 전체 항체 집합의 평균 변이가 사전에 정의된 임계값 이하가 될 때 수행된다. 실험에서는 평균 3050세대 내에 수렴했으며, 이는 K‑means의 전형적인 100200회 반복보다 현저히 적은 횟수이다. 또한, UCSC는 다중 최적해를 동시에 탐색하므로 로컬 최적에 빠질 위험이 낮다. 그러나 복제·변이 연산이 병렬화되지 않을 경우 계산량이 K‑means보다 다소 높을 수 있다. GPU나 멀티코어 환경에서 병렬 구현하면 이 문제는 크게 완화된다.

비교 실험에서는 인공 데이터(구형, 타원형, 겹침이 있는 군집)와 실제 데이터(이미지 색상 군집, 고객 세분화 데이터) 두 종류를 사용하였다. 정량적 평가지표로는 평균 제곱 오차(MSE), 실루엣 점수, 정밀도·재현율을 활용하였다. 전반적으로 UCSC는 K‑means 대비 평균 1015% 낮은 MSE와 0.050.12 높은 실루엣 점수를 기록했으며, 특히 잡음이 많은 데이터에서 K‑means가 군집 수를 과소/과대 추정하는 반면 UCSC는 안정적인 군집 수를 유지하였다. 이러한 결과는 UCSC가 데이터의 내재 구조를 더 잘 포착하고, 파라미터 의존성을 최소화한다는 것을 시사한다.

요약하면, UCSC는 클론 선택 메커니즘을 기반으로 한 자기 적응형 무감독 군집화 기법으로, 파라미터 자동 튜닝, 고·저변이 이중 전략, 동적 수렴 판단을 통해 기존 K‑means 대비 빠른 수렴과 높은 정확도를 달성한다. 향후 연구에서는 하이브리드 형태(예: UCSC와 밀도 기반 DBSCAN 결합)나 대규모 데이터에 대한 분산 구현을 통해 확장성을 검증할 필요가 있다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...