상호정보량 분포 기반 강건한 특징 선택
초록
베이즈 프레임워크와 디리클레 사전으로 얻은 상호정보량의 평균과 분산을 정확히 분석하고, 이를 이용해 나이브 베이즈 분류기의 특징 선택을 점진 학습 상황에서 효율적으로 수행한다. 불완전 데이터에도 확장 가능한 새로운 빠른 알고리즘을 제시한다.
상세 분석
본 논문은 이산형 변수 사이의 상호정보량을 추정할 때, 단순히 경험적 값에 의존하는 전통적 방법이 갖는 불확실성을 베이즈적 관점에서 해소하고자 한다. 저자는 2차 디리클레 사전(Dirichlet prior)을 도입하여 사후 분포를 구하고, 이 사후 분포로부터 상호정보량의 정확한 평균식을 유도한다. 평균식은 관측된 빈도표와 사전 파라미터의 선형 결합 형태로 나타나, 계산 복잡도가 O(rc) (r은 클래스 수, c는 특징값 수) 로 제한된다. 분산에 대해서는 정확한 폐쇄형 해를 얻기 어려워 1차 테일러 전개와 중심극한정리를 활용한 근사식을 제시한다. 이 근사는 샘플 크기가 충분히 클 때 실제 분산과 높은 일치도를 보이며, 실험적으로도 오차가 5% 이하로 제한된다. 또한, 상호정보량 분포의 비대칭성을 반영한 비대칭 베타 근사와, 대규모 샘플에서 정규 근사를 제안함으로써 전체 분포를 효율적으로 추정한다. 이러한 확률적 추정은 특징 선택 과정에서 ‘신뢰 구간’ 기반의 판단을 가능하게 하여, 단순히 평균값만을 사용하는 기존 방법보다 과적합 위험을 크게 감소시킨다. 특히, 나이브 베이즈 분류기의 조건부 독립 가정 하에서 각 특징의 상호정보량을 순차적으로 업데이트하는 인크리멘탈 학습 시나리오에 적용했을 때, 새로운 데이터가 추가될 때마다 사후 분포를 재계산하는 비용이 O(1) 수준으로 유지된다. 불완전 데이터(결측값) 처리에 대해서는, 결측값을 잠재 변수로 모델링하고 디리클레 사전의 합성곱 구조를 이용해 기대값을 직접 계산함으로써 복잡한 EM 절차 없이도 정확한 추정이 가능함을 증명한다. 실험에서는 UCI와 KEEL 등 공개 데이터셋 12개에 대해 전통적 경험적 상호정보량 기반 선택법과 비교했을 때, 평균 정확도가 3~7% 상승하고, 학습 시간은 30% 이상 단축되는 결과를 얻었다. 이러한 결과는 베이즈적 불확실성 모델링이 특징 선택의 견고성을 크게 향상시킬 수 있음을 강력히 시사한다.