Erythemato Squamous 질환 진단을 위한 예측 데이터 마이닝 알고리즘 비교
초록
본 연구는 366개의 Erythemato‑Squamous 질환 데이터셋을 대상으로 Naive Bayes, Multilayer Perceptron, J48 의 세 가지 분류기를 10‑fold 교차 검증으로 평가하였다. 정확도 기준으로 Naive Bayes가 97.4%로 가장 높은 성능을 보였으며, 이어 MLP가 96.6%, J48이 93.5%를 기록하였다. 결과는 임상 진단에서 데이터 마이닝 알고리즘 선택 시 Naive Bayes가 유망함을 시사한다.
상세 분석
본 논문은 임상 데이터 마이닝 분야에서 알고리즘 선택의 근거를 제공하고자 Erythemato‑Squamous 질환(ESD) 데이터셋을 이용해 세 가지 대표적인 분류 모델을 비교하였다. 데이터는 366개의 사례와 34개의 속성(피부 증상, 색소 침착, 가려움 등)으로 구성되어 있으며, 결측값이 거의 없고 클래스 불균형이 최소화된 형태다. 전처리 단계에서는 범주형 변수를 원-핫 인코딩하고, 수치형 변수는 정규화를 적용해 각 알고리즘이 동일한 입력 스케일을 사용하도록 하였다.
Naive Bayes는 조건부 독립 가정을 기반으로 베이즈 정리를 적용한다. 이 가정은 실제 임상 변수들 사이에 상관관계가 존재하더라도, 데이터가 충분히 크면 평균적인 확률 추정이 강건하게 작동한다는 점에서 장점이 있다. 특히 ESD와 같이 증상이 다중으로 겹치는 질환에서는 각 증상의 존재 여부가 독립적으로 질환 확률에 기여한다는 가정을 어느 정도 만족한다는 점이 높은 정확도로 이어졌다.
Multilayer Perceptron(MLP)은 비선형 관계를 학습할 수 있는 다층 신경망으로, 본 연구에서는 은닉층 1개, 뉴런 수 20, sigmoid 활성화 함수를 사용하였다. 학습률과 모멘텀을 적절히 조정해 과적합을 방지했으며, 10‑fold 교차 검증을 통해 일반화 성능을 평가했다. MLP는 복잡한 상호작용을 포착하지만, 학습 과정이 상대적으로 오래 걸리고 파라미터 튜닝이 필요하다는 단점이 있다. 그럼에도 불구하고 96.6%의 높은 정확도를 기록, Naive Bayes와 근소한 차이로 실용성을 입증했다.
J48은 C4.5 기반의 결정트리 알고리즘으로, 트리 구조가 직관적이라 해석이 용이하다는 장점이 있다. 그러나 트리는 작은 노이즈에도 민감해 과적합 위험이 크며, 본 연구에서는 가지치기(pruning)를 적용했음에도 불구하고 93.5%에 그치는 성능을 보였다. 이는 ESD 데이터가 다차원적이고 연속적인 변수들을 포함하고 있어, 트리 기반 모델이 복잡한 경계면을 충분히 표현하지 못했기 때문으로 해석된다.
평가 지표는 정확도 외에도 정밀도, 재현율, F1‑score, ROC‑AUC 등을 제시했으며, 세 모델 모두 높은 AUC(>0.95)를 기록해 전반적인 분류 능력이 우수함을 확인했다. 다만, 클래스별 혼동 행렬을 살펴보면 J48이 특정 소수 클래스(예: 건선)에서 오분류율이 다소 높아 임상적 위험을 초래할 가능성이 있다.
한계점으로는 데이터셋 규모가 비교적 작아 외부 검증이 제한적이며, 변수 선택 과정이 자동화되지 않아 전문가 주관이 개입될 여지가 있다. 또한, 알고리즘 간 하이퍼파라미터 최적화가 동일 수준으로 수행되지 않아 성능 차이가 일부 편향될 가능성이 있다. 향후 연구에서는 더 큰 다기관 데이터와 딥러닝 기반 모델(예: CNN, RNN) 등을 도입해 비교하고, 모델 해석성을 강화하기 위한 SHAP, LIME 같은 기법을 적용하는 것이 바람직하다.
결론적으로, 본 연구는 임상 현장에서 빠르고 신뢰성 있는 진단 도구로 Naive Bayes가 가장 적합함을 제시하면서도, MLP와 같은 비선형 모델도 충분히 경쟁력 있음을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기