유전 알고리즘 기반 초기 중심 선택으로 향상된 K‑means 클러스터링: 간염 C 데이터 사례 연구

초록

본 논문은 유전 알고리즘(GA)을 이용해 K‑means의 초기 클러스터 중심을 자동 선택함으로써 초기값 의존성을 완화하고, 대규모 데이터와 이상치에 강인한 클러스터링을 구현한다. 전처리 단계에서 결측치를 지역 평균으로 보정하고, Hepatitis C 공개 데이터셋에 적용해 기존 K‑means 대비 군집 품질과 안정성이 향상됨을 실험적으로 입증한다.

상세 분석

본 연구는 K‑means 알고리즘이 초기 중심 선택에 크게 좌우된다는 기존 한계를 인식하고, 이를 메타휴리스틱인 유전 알고리즘으로 보완한다는 점에서 의미가 크다. GA는 개체를 ‘초기 중심 좌표 집합’으로 정의하고, 적합도 함수로는 일반적으로 사용되는 SSE(총제곱오차)와 함께 클러스터 간 거리 균형, 이상치 민감도 감소를 위한 패널티 항을 포함한다. 이러한 다목적 적합도 설계는 단순히 SSE를 최소화하는 기존 방식보다 군집의 형태와 크기 균형을 동시에 고려하게 만든다.

알고리즘 흐름은 (1) 무작위 초기 개체 생성 → (2) K‑means를 이용한 지역 최적화(개체 내 평가) → (3) 선택·교차·돌연변이 연산을 통한 새로운 세대 생성 → (4) 종료 조건(세대 수 혹은 적합도 수렴)까지 반복한다. 특히, GA 단계에서 K‑means를 ‘local search’로 삽입함으로써 탐색 효율을 크게 높였으며, 이는 ‘memetic algorithm’에 해당한다.

데이터 전처리에서는 결측치를 동일 변수의 지역 평균값으로 대체하는 ‘local mean method’를 사용했는데, 이는 변수 간 상관관계를 보존하면서도 결측치가 군집 구조에 미치는 왜곡을 최소화한다. 그러나 결측치 비율이 높은 경우 평균 대체가 편향을 초래할 수 있다는 점은 논문에서 충분히 논의되지 않았다.

실험에서는 UCI Machine Learning Repository의 Hepatitis C 데이터(155 샘플, 19 특성)를 대상으로 10‑fold 교차 검증을 수행했다. 비교 대상은 (i) 전통적 K‑means (랜덤 초기화), (ii) K‑means++, (iii) GA‑K‑means (제안 방법). 평가 지표는 SSE, 실루엣 점수, Davies‑Bouldin Index 등 3가지 군집 품질 지표와 실행 시간이다. 결과는 제안 방법이 SSE를 평균 12 % 감소시키고, 실루엣 점수를 0.06 상승시키며, DBI를 0.15 낮추는 등 전반적으로 우수한 성능을 보였지만, 실행 시간은 K‑means++ 대비 약 1.8배 늘어났다. 이는 GA 기반 탐색 비용이 추가되기 때문이며, 대규모 데이터셋에서는 병렬화 혹은 샘플링 전략이 필요함을 시사한다.

한편, 논문은 ‘다중 샘플링에 의한 데이터 불균형’ 문제를 GA가 완화한다는 주장을 제시하지만, 구체적인 불균형 비율 실험이나 클래스 별 군집 결과 분석이 부족하다. 또한, GA 파라미터(인구 규모, 교차·돌연변이 확률) 선택 기준이 경험적이며, 민감도 분석이 부재해 재현 가능성에 의문이 남는다.

종합적으로, 초기 중심 선택을 GA로 최적화하고, K‑means와 결합한 하이브리드 접근은 기존 방법 대비 군집 품질을 실질적으로 개선한다는 점에서 기여도가 크다. 다만, 계산 복잡도와 파라미터 설정에 대한 상세 가이드가 부족하고, 결측치 처리와 데이터 불균형에 대한 심층 검증이 추가된다면 실용성 및 학술적 완성도가 더욱 높아질 것이다.