대칭 불확실성과 상호 정보를 활용한 고광谱 이미지 차원 축소 및 분류 기법
초록
본 논문은 고광谱 이미지(HSI)의 대규모 밴드 중에서 분류에 가장 유용한 소수의 밴드를 선택하기 위해, 상호 정보(MI)를 기반으로 한 밴드 선택 알고리즘을 제안하고, 선택된 밴드 간의 중복성을 평가·제어하기 위해 대칭 불확실성(Symmetric Uncertainty, SU) 계수를 도입한다. 제안 기법은 필터형 특징 선택기로서, AVIRIS 92AV3C 데이터셋에 적용해 분류 정확도와 연산 효율성을 동시에 향상시켰음을 실험적으로 입증한다.
상세 분석
본 연구는 고광谱 이미지(HSI)의 특성상 수백 개에 달하는 스펙트럴 밴드가 존재하지만, 대부분의 밴드가 서로 높은 상관관계를 가지거나 대기·노이즈 영향으로 정보량이 낮아 분류 성능을 저해한다는 문제점을 지적한다. 이러한 배경에서 저자는 두 단계의 필터형 차원 축소 전략을 설계하였다. 첫 번째 단계는 각 밴드와 클래스 레이블 간의 상호 정보(MI)를 계산하여, MI 값이 사전에 정의된 임계값(threshold_MI) 이상인 밴드만을 후보 집합에 포함시킨다. MI는 밴드가 클래스 정보를 얼마나 많이 전달하는지를 정량화하는 비대칭 지표이며, 높은 MI는 해당 밴드가 분류에 기여할 가능성이 크다는 의미이다.
두 번째 단계에서는 후보 집합 내에서 밴드 간 중복성을 평가한다. 여기서는 대칭 불확실성(SU)이라는 정규화된 상호 정보 지표를 사용한다. SU는 두 변수 간의 상호 정보를 각각의 엔트로피 합으로 정규화함으로써 0~1 사이의 값으로 표현되며, 값이 클수록 두 밴드가 제공하는 정보가 중복됨을 의미한다. 저자는 SU 값이 사전 설정된 임계값(threshold_SU)보다 낮은 경우에만 새로운 밴드를 최종 선택 집합에 추가한다. 이 과정은 “가장 정보량이 크면서 서로 독립적인” 밴드들을 효율적으로 추출하도록 설계되었다.
알고리즘의 복잡도는 MI와 SU 계산에 각각 O(N·M)와 O(K²·M) (N: 전체 밴드 수, K: 선택된 밴드 수, M: 샘플 수) 정도이며, 필터형 접근 특성상 분류기와 독립적으로 사전 처리 단계에서 실행될 수 있다. 실험에서는 AVIRIS 92AV3C 데이터셋에 SVM, k‑NN, Random Forest 등 다양한 분류기를 적용했으며, 제안 방법이 기존의 단순 MI 기반 선택이나 PCA와 비교해 평균 35%p의 정확도 향상을 보였다. 특히, 선택된 밴드 수가 1015개 수준으로 크게 감소했음에도 불구하고 연산 시간은 30% 이상 단축되었다.
이 논문은 MI와 SU라는 두 가지 정보 이론 기반 지표를 결합함으로써, “정보량”과 “중복성”을 동시에 고려한 효율적인 밴드 선택 프레임워크를 제시한다는 점에서 의미가 크다. 또한, 필터형 전략이므로 분류기 종류에 구애받지 않으며, 실시간 혹은 임베디드 시스템에 적용 가능한 경량화된 전처리 단계로 활용 가능하다. 다만, 임계값 설정이 경험적이며 데이터셋마다 최적값이 달라질 수 있다는 한계와, 고차원 데이터에서 SU 계산 비용이 여전히 부담될 수 있다는 점은 향후 연구에서 자동 임계값 튜닝 및 계산 효율화 방안을 모색해야 할 과제로 남는다.