의료 데이터 최소 리덕트 탐색을 위한 벌집 최적화 기반 거친 집합 알고리즘

초록

본 논문은 거친 집합 이론과 벌집 군집 최적화(BCO)를 결합하여 의료 데이터에서 최소 리덕트를 효율적으로 찾는 새로운 특징 선택 방법을 제안한다. 제안 알고리즘은 기존 Quick Reduct, 엔트로피 기반 리덕트 및 GA, ACO, PSO와 같은 하이브리드 방법과 비교 실험을 통해 높은 선택 정확도와 낮은 연산 비용을 입증한다.

상세 요약

거친 집합 이론은 불확실성을 다루는 강력한 수학적 도구로, 데이터의 의존 관계를 기반으로 최소 속성 집합인 리덕트를 도출한다. 그러나 전통적인 Quick Reduct이나 엔트로피 기반 방법은 탐색 공간이 급격히 커질 때 전역 최적을 보장하지 못한다는 한계가 있다. 이를 보완하기 위해 본 연구는 자연계에서 영감을 얻은 벌집 군집 최적화(BCO)를 도입한다. BCO는 인공 벌집의 탐색 행동을 모사하여 후보 해 집합을 탐색하고, 탐색 단계에서 ‘정밀 탐색’과 ‘탐색 확장’ 두 가지 메커니즘을 교대로 적용한다. 정밀 탐색에서는 현재 최적 해 주변을 미세하게 조사하여 지역 최적을 강화하고, 탐색 확장 단계에서는 새로운 탐색 영역을 개척함으로써 전역 탐색 능력을 확보한다.

알고리즘 흐름은 다음과 같다. 첫째, 초기 벌집 군집을 무작위로 생성하고 각 벌이(해 후보)에게 초기 리덕트 후보 집합을 할당한다. 둘째, 각 벌은 현재 후보 집합의 의존도와 최소성 조건을 평가하여 적합도 함수를 산출한다. 적합도는 거친 집합의 의존도와 선택된 속성 수의 가중 합으로 정의되어, 높은 의존도와 적은 속성 수를 동시에 만족하도록 설계되었다. 셋째, 적합도가 높은 벌은 ‘채집’ 단계에서 주변 해를 탐색하고, ‘전파’ 단계에서 다른 벌에게 정보를 공유한다. 이 과정에서 탐색 확률은 동적 파라미터 α에 의해 조절되며, α는 현재 세대의 평균 적합도와 최적 적합도의 비율에 따라 자동으로 감소한다. 넷째, 일정 세대 수 혹은 적합도 수렴 조건이 만족될 때까지 위 과정을 반복한다. 최종적으로 가장 높은 적합도를 기록한 후보가 최소 리덕트로 선택된다.

실험에서는 UCI 의료 데이터셋(예: 심장 질환, 당뇨병, 유방암)과 실제 병원 전자 의료 기록(EMR) 데이터를 사용하였다. 각 데이터셋에 대해 제안 알고리즘과 Quick Reduct, 엔트로피 기반 리덕트, GA‑RS, ACO‑RS, PSO‑RS를 비교하였다. 평가 지표는 선택된 속성 수, 분류 정확도(랜덤 포레스트, SVM 등 사용), 그리고 실행 시간이다. 결과는 BCO‑RS가 평균적으로 15 % 정도 적은 속성으로 동일하거나 더 높은 분류 정확도를 달성했으며, 실행 시간은 GA‑RS보다 30 % 이상 빠른 것으로 나타났다. 특히 고차원 데이터(속성 수 > 100)에서 탐색 효율성이 두드러졌으며, 탐색 과정에서 발생하는 지역 최적에 빠지는 현상이 거의 관찰되지 않았다.

본 연구의 주요 기여는 (1) 거친 집합과 BCO를 효과적으로 결합한 새로운 하이브리드 특징 선택 프레임워크 제시, (2) 의료 도메인에서 최소 리덕트를 찾는 데 필요한 계산 복잡도를 크게 감소시킨 점, (3) 다양한 의료 데이터에 대한 실증적 검증을 통해 실제 적용 가능성을 입증한 점이다. 향후 연구에서는 동적 파라미터 조정 전략을 강화하고, 다중 목표 최적화(예: 비용과 정확도 동시 고려)와 같은 확장 모델을 탐색할 계획이다.

초록

상세 요약

📜 논문 원문 (영문)