심장질환 분류를 위한 KNN과 유전 알고리즘 결합

초록

본 논문은 심장질환 진단을 위해 K‑Nearest Neighbor(KNN)와 유전 알고리즘(GA)을 결합한 새로운 분류 모델을 제안한다. GA를 이용해 불필요하거나 중복된 특성을 제거하고 최적의 이웃 수(k)를 탐색함으로써 기존 KNN 대비 높은 정확도를 달성하였다. 실험 결과, 제안 알고리즘은 기존 KNN 및 다른 전통적 분류기보다 향상된 진단 성능을 보이며, 의료 현장에서 의사들의 의사결정 지원 도구로 활용 가능함을 입증한다.

상세 요약

이 연구는 의료 데이터의 고차원성과 잡음 문제를 해결하기 위해 KNN과 유전 알고리즘을 통합한 하이브리드 모델을 설계하였다. KNN은 거리 기반 분류기로, 구현이 간단하고 직관적이지만 차원 저주와 이웃 수(k)의 민감도 때문에 성능이 제한된다. 반면 GA는 진화적 탐색 메커니즘을 통해 전역 최적해를 찾을 수 있으며, 특히 특성 선택(feature selection)과 파라미터 최적화에 강점을 가진다. 논문에서는 먼저 원본 심장질환 데이터셋(예: Cleveland Clinic 데이터)을 전처리하고, 각 속성을 이진 혹은 정규화된 형태로 변환하였다. 이후 GA의 염색체를 0/1 비트 문자열로 정의하여 각 비트가 해당 특성의 포함 여부를 나타내도록 설계하였다. 적합도 함수는 교차 검증을 통한 KNN 분류 정확도와 선택된 특성 수의 가중합으로 구성했으며, 이는 모델 복잡도와 일반화 성능 사이의 균형을 촉진한다. 선택 연산은 토너먼트 방식, 교차는 2점 교차, 돌연변이는 낮은 확률의 비트 플립으로 구현하였다. GA는 여러 세대에 걸쳐 최적의 특성 집합과 최적 k값을 동시에 탐색한다. 최종적으로 도출된 특성 집합은 기존 연구에서 중요하다고 보고된 변수(예: chest pain type, cholesterol, max heart rate)와 새롭게 도출된 변수들을 포함한다. 실험에서는 10‑fold 교차 검증을 사용해 정확도, 정밀도, 재현율, F1‑score를 평가했으며, 제안 모델은 순수 KNN 대비 평균 5~7%p의 정확도 향상을 보였다. 또한, 특성 수를 13개에서 7개로 감소시킴으로써 연산 시간도 크게 단축되었다. 그러나 GA의 초기 파라미터 설정(인구 규모, 변이율 등)에 따라 결과 변동성이 존재하며, 대규모 데이터셋에 적용할 경우 연산 비용이 증가할 수 있다는 한계도 논의되었다. 전반적으로 이 연구는 전통적 거리 기반 분류기의 약점을 진화적 최적화 기법으로 보완함으로써, 의료 데이터와 같이 잡음이 많고 특성 간 상관관계가 복잡한 분야에서 실용적인 성능 향상을 달성했다는 점에서 의미가 크다.

초록

상세 요약

📜 논문 원문 (영문)