뇌종양 분류를 위한 향상된 이미지 마이닝 기법 및 효율적 분류기

초록

본 논문은 CT 스캔 뇌 영상을 정상, 양성, 악성 세 범주로 구분하기 위해 MARI 알고리즘 기반의 가지치기 연관 규칙을 적용한 이미지 마이닝 기법을 제안한다. 저수준 이미지 특징과 전문가의 고수준 지식을 결합하여 다중 키워드 분류를 수행하고, 실험 결과 96%의 민감도와 93%의 정확도를 달성하였다.

상세 요약

본 연구는 의료 영상 분석에서 흔히 발생하는 ‘특징과 의미의 격차’를 해소하기 위해 연관 규칙 마이닝(Association Rule Mining, ARM)을 활용한다. 핵심 알고리즘인 MARI(Multiple Association Rule Induction)는 기존 ARM 기법에 비해 규칙 생성 과정에서 불필요한 후보를 조기에 제거하는 가지치기(pruning) 전략을 도입한다. 이를 통해 연산 복잡도를 크게 낮추면서도 높은 품질의 규칙 집합을 확보한다.

이미지 전처리 단계에서는 CT 스캔의 노이즈를 감소시키기 위해 평균 필터와 히스토그램 평활화를 적용하고, ROI(Region of Interest)를 자동 추출한다. 저수준 특징으로는 텍스처(Gray Level Co-occurrence Matrix 기반의 엔트로피, 대비, 상관관계 등), 형태(경계 길이, 면적, 원형도) 및 강도 히스토그램을 사용한다. 이러한 수치형 특징은 이산화(discretization) 과정을 거쳐 연관 규칙의 항목(item)으로 변환된다.

고수준 지식은 전문의가 제공한 진단 키워드(예: “불규칙 경계”, “고밀도 영역”)를 메타데이터 형태로 삽입한다. MARI는 이미지 특징 항목과 전문가 키워드 항목을 동시에 고려하여 다중 라벨(다중 클래스) 규칙을 생성한다. 규칙의 신뢰도(confidence)와 지지도(support) 임계값을 각각 0.7, 0.05로 설정했으며, 불필요하거나 중복된 규칙은 최소 지지도와 최대 신뢰도 기준으로 가지치기한다.

분류 단계에서는 테스트 이미지에 대해 추출된 특징을 기반으로 규칙 매칭을 수행하고, 매칭된 규칙들의 라벨 가중치를 합산하여 최종 클래스를 결정한다. 다중 키워드 매칭을 허용함으로써 하나의 이미지에 여러 진단 힌트를 동시에 반영할 수 있어, 기존 단일 라벨 분류기에 비해 오류 전파를 억제한다.

실험은 300여 장의 사전 진단된 CT 이미지(정상 100장, 양성 100장, 악성 100장)를 5‑fold 교차 검증으로 평가하였다. 민감도(sensitivity)와 특이도(specificity) 외에도 정밀도(precision), 재현율(recall), F1‑score를 보고했으며, 특히 악성 종양에 대한 민감도가 96%에 달했다. 이는 기존 SVM 기반 텍스처 분류기(약 88% 민감도)와 비교했을 때 유의미한 향상이다.

한계점으로는 규칙 기반 접근이 데이터 규모가 커질수록 메모리 사용량이 급증할 가능성이 있으며, 규칙의 해석 가능성이 전문가에 따라 다를 수 있다는 점을 들었다. 향후 연구에서는 규칙 압축 기법과 딥러닝 기반 특징 추출을 결합해 하이브리드 모델을 구축하고, 다기관 데이터셋을 통한 일반화 검증을 계획하고 있다.

초록

상세 요약

📜 논문 원문 (영문)