자궁경부암 데이터셋 분류와 핵심 특징 선택

초록

본 논문은 858개의 샘플과 32개의 변수로 구성된 자궁경부암 데이터에 대해 결측치 처리, 클래스 불균형 완화를 위한 오버·언더샘플링, 필터·래퍼 기반 특징 선택을 적용하고, 결정트리 모델을 중심으로 다양한 분류기를 실험한다. 주요 예측 변수는 연령, 첫 성관계 연령, 임신 횟수, 흡연 여부, 호르몬 피임제 사용, 성병(생식기 포진) 여부이며, 최종 모델은 97.5%의 정확도를 달성한다.

상세 요약

이 연구는 자궁경부암 진단을 위한 데이터마이닝 접근법을 체계적으로 검증한다. 데이터는 32개의 임상·행동 변수와 858명의 환자 기록으로 구성되었으며, 다수의 결측값과 심각한 클래스 불균형(양성·음성 비율이 크게 차이)이라는 두 가지 주요 문제를 안고 있다. 저자는 먼저 결측치 대체 전략으로 평균·중앙값 대체와 KNN 기반 보간을 적용했으며, 이후 SMOTE와 ADASYN 같은 오버샘플링 기법과 랜덤 언더샘플링을 조합한 하이브리드 샘플링 파이프라인을 구축했다. 이러한 전처리 단계는 모델 학습 시 편향을 최소화하고, 소수 클래스의 재현율을 크게 향상시켰다.

특징 선택 단계에서는 필터 방식(카이제곱, ANOVA F‑값, 상관계수)과 래퍼 방식(재귀적 특징 제거, 전진 선택) 두 축을 모두 활용했다. 필터 단계에서 통계적 유의성이 높은 변수들을 사전 선별한 뒤, 래퍼 단계에서 실제 모델 성능에 미치는 영향을 평가해 최적의 특징 집합을 도출했다. 결과적으로 연령, 첫 성관계 연령, 임신 횟수, 흡연 여부, 호르몬 피임제 사용, 성병(생식기 포진) 여부가 가장 높은 중요도를 보였으며, 이들 6개 변수가 전체 32개 변수 중 97.5%의 정확도를 유지하는 데 핵심적인 역할을 한다는 것이 확인되었다.

분류기 비교에서는 결정트리, 랜덤포레스트, 서포트벡터머신, 로지스틱 회귀, XGBoost 등을 실험했으며, 특히 결정트리는 해석 가능성, 트리 구조 자체가 특징 선택과 연계되는 장점 덕분에 가장 높은 정확도와 F1 점수를 기록했다. 교차검증(5‑fold) 결과, 결정트리 모델은 평균 정확도 97.5%, 정밀도 96.8%, 재현율 98.2%를 달성했으며, 다른 고성능 모델과 비교했을 때 과적합 위험이 낮고 학습·예측 속도가 빠른 점이 강조되었다.

한계점으로는 데이터 규모가 상대적으로 작아 외부 검증이 제한적이며, 오버샘플링에 의한 인공적 데이터 생성이 실제 임상 환경에서의 일반화에 영향을 미칠 수 있다는 점을 들었다. 또한, 특징 선택 과정에서 변수 간 상호작용을 충분히 탐색하지 못했으며, 딥러닝 기반 모델과의 비교가 이루어지지 않은 점도 아쉽다. 향후 연구에서는 다기관 대규모 코호트를 활용한 외부 검증, 베이지안 최적화 기반 하이퍼파라미터 튜닝, 그리고 변수 간 비선형 상호작용을 포착할 수 있는 그래프 신경망 등 고급 모델을 도입해 성능과 해석성을 동시에 강화할 필요가 있다.

초록

상세 요약

📜 논문 원문 (영문)