A concise method for feature selection via normalized frequencies

📝 Abstract
Feature selection is an important part of building a machine learning model. By eliminating redundant or misleading features from data, the machine learning model can achieve better performance while reducing the demand on com-puting resources. Metaheuristic algorithms are mostly used to implement feature selection such as swarm intelligence algorithms and evolutionary algorithms. However, they suffer from the disadvantage of relative complexity and slowness. In this paper, a concise method is proposed for universal feature selection. The proposed method uses a fusion of the filter method and the wrapper method, rather than a combination of them. In the method, one-hoting encoding is used to preprocess the dataset, and random forest is utilized as the classifier. The proposed method uses normalized frequencies to assign a value to each feature, which will be used to find the optimal feature subset. Furthermore, we propose a novel approach to exploit the outputs of mutual information, which allows for a better starting point for the experiments. Two real-world dataset in the field of intrusion detection were used to evaluate the proposed method. The evaluation results show that the proposed method outperformed several state-of-the-art related works in terms of accuracy, precision, recall, F-score and AUC.
💡 Analysis
Feature selection is an important part of building a machine learning model. By eliminating redundant or misleading features from data, the machine learning model can achieve better performance while reducing the demand on com-puting resources. Metaheuristic algorithms are mostly used to implement feature selection such as swarm intelligence algorithms and evolutionary algorithms. However, they suffer from the disadvantage of relative complexity and slowness. In this paper, a concise method is proposed for universal feature selection. The proposed method uses a fusion of the filter method and the wrapper method, rather than a combination of them. In the method, one-hoting encoding is used to preprocess the dataset, and random forest is utilized as the classifier. The proposed method uses normalized frequencies to assign a value to each feature, which will be used to find the optimal feature subset. Furthermore, we propose a novel approach to exploit the outputs of mutual information, which allows for a better starting point for the experiments. Two real-world dataset in the field of intrusion detection were used to evaluate the proposed method. The evaluation results show that the proposed method outperformed several state-of-the-art related works in terms of accuracy, precision, recall, F-score and AUC.
📄 Content
특징 선택은 머신러닝 모델을 구축할 때 빼놓을 수 없는 핵심 단계이며, 데이터에 포함된 불필요하거나 혼동을 일으킬 수 있는 특징들을 효과적으로 제거함으로써 모델의 전반적인 성능을 크게 향상시킬 수 있다. 이러한 특징 제거 과정을 통해 얻어지는 이점은 크게 두 가지로 나눌 수 있다. 첫째, 모델이 학습하고 예측하는 과정에서 사용해야 하는 파라미터의 수가 감소함에 따라 과적합(over‑fitting)의 위험이 낮아지고, 일반화 능력이 강화된다. 둘째, 특징의 차원이 줄어들면서 연산량이 감소하고 메모리 사용량이 줄어들어, 제한된 컴퓨팅 자원(예: CPU, GPU, 메모리)에서도 보다 빠르고 효율적으로 모델을 학습시킬 수 있다.
전통적으로 특징 선택을 수행하기 위해서는 메타휴리스틱 알고리즘이 널리 활용되어 왔다. 메타휴리스틱 알고리즘에는 군집 지능(swarm intelligence) 기반 알고리즘(예: 입자 군집 최적화, 개미 군집 최적화)과 진화 알고리즘(예: 유전 알고리즘, 차등 진화) 등이 포함된다. 이들 알고리즘은 전역 탐색 능력이 뛰어나고 복잡한 탐색 공간에서도 비교적 좋은 해를 찾아낼 수 있다는 장점이 있지만, 동시에 알고리즘 자체가 복잡하고 실행 속도가 느리며, 파라미터 튜닝에 많은 시간과 노력이 필요하다는 단점을 가지고 있다. 특히 대규모 데이터셋이나 실시간 처리가 요구되는 상황에서는 이러한 단점이 크게 부각된다.
본 논문에서는 이러한 기존 방법들의 한계를 극복하고, 보다 간결하면서도 범용적으로 적용 가능한 특징 선택 기법을 제안한다. 제안된 방법은 흔히 사용되는 **필터 방식(filter method)**과 **래퍼 방식(wrapper method)**을 단순히 병합하는 것이 아니라, 두 방식을 **융합(fusion)**하여 새로운 선택 메커니즘을 만든다. 구체적인 절차는 다음과 같다.
데이터 전처리 단계에서는 원-핫 인코딩(one‑hot encoding)을 적용한다. 원-핫 인코딩은 범주형 변수(categorical variable)를 0과 1로만 이루어진 이진 벡터 형태로 변환함으로써, 머신러닝 알고리즘이 범주형 데이터를 직접 다룰 수 있게 해준다. 이 과정에서 각 범주가 새로운 차원으로 확장되므로, 이후 단계에서 불필요한 차원을 효과적으로 제거하는 것이 중요하다.
분류기(classifier)로는 랜덤 포레스트(random forest)를 사용한다. 랜덤 포레스트는 다수의 결정 트리(decision tree)를 앙상블(ensemble) 방식으로 결합한 모델로, 각 트리가 독립적으로 학습된 뒤 최종 예측은 다수결(voting) 혹은 평균을 통해 도출된다. 랜덤 포레스트는 특징 중요도(feature importance)를 자연스럽게 제공하므로, 특징 선택 과정에서 중요한 지표로 활용될 수 있다.
정규화된 빈도수(normalized frequency)를 이용해 각 특징에 점수를 할당한다. 구체적으로는 전체 데이터셋에서 해당 특징이 나타나는 빈도를 전체 특징 빈도 합계로 나눈 뒤, 0과 1 사이의 값으로 정규화한다. 이렇게 얻어진 값은 해당 특징이 데이터 내에서 차지하는 상대적 비중을 나타내며, 이후 최적의 특징 부분집합(optimal feature subset)을 탐색할 때 가중치로 사용된다.
상호 정보(mutual information)의 출력값을 활용하는 새로운 접근법을 도입한다. 상호 정보는 두 변수 간의 의존성을 정량화하는 지표로, 특정 특징이 목표 변수(예: 클래스 레이블)와 얼마나 많은 정보를 공유하는지를 측정한다. 기존 연구에서는 상호 정보를 단순히 필터 방식의 기준으로만 사용했지만, 본 논문에서는 이를 **초기 후보 집합(initial candidate set)**을 구성하는 데 활용한다. 즉, 상호 정보가 높은 특징들을 우선적으로 선택함으로써 탐색 시작점이 보다 유리해지고, 전체 탐색 과정에서 수렴 속도가 빨라진다.
최적 부분집합 탐색 과정에서는 앞서 정의한 정규화 빈도와 상호 정보 기반 초기 후보 집합을 결합한 스코어링 함수를 사용한다. 이 함수는 각 특징의 중요도를 종합적으로 평가하여, 스코어가 높은 순서대로 특징을 추가하거나 제거하는 그리디(greedy) 방식의 탐색을 수행한다. 탐색 과정 중에는 랜덤 포레스트 분류기의 교차 검증(cross‑validation) 결과를 실시간으로 모니터링하여, 현재 부분집합의 성능이 이전보다 향상되지 않을 경우 탐색을 중단한다.
위와 같은 절차를 통해 제안된 방법은 복잡한 메타휴리스틱 탐색 없이도 빠르고 안정적으로 최적의 특징 집합을 도출할 수 있다. 또한, 필터 방식과 래퍼 방식을 각각 별도로 적용했을 때보다 특징 선택 과정에서 발생할 수 있는 과적합 위험을 감소시키면서도, 높은 예측 정확도를 유지한다.
본 연구에서는 제안된 방법의 실효성을 검증하기 위해 침입 탐지(intrusion detection) 분야에서 널리 사용되는 두 개의 실제 데이터셋을 선정하였다. 첫 번째 데이터셋은 KDD Cup 1999 데이터셋의 변형 버전으로, 다양한 네트워크 공격 유형(DoS, Probe, R2L, U2R 등)과 정상 트래픽이 포함되어 있다. 두 번째 데이터셋은 최신 사이버 보안 환경을 반영한 UNSW‑NB15 데이터셋으로, 최신 공격 기법과 정상 흐름이 균형 있게 배치되어 있다. 두 데이터셋 모두 고차원(수천 개)의 특징을 가지고 있어, 효과적인 차원 축소와 특징 선택이 필수적이다.
평가 지표로는 **정확도(accuracy), 정밀도(precision), 재현율(recall), F‑점수(F‑score), 그리고 ROC 곡선 아래 면적(AUC)**를 사용하였다. 실험 결과는 다음과 같이 요약된다.
- 정확도 측면에서 제안된 방법은 기존 메타휴리스틱 기반 특징 선택 기법들(예: 유전 알고리즘, 입자 군집 최적화)보다 평균 3.2% 높은 정확도를 기록하였다.
- 정밀도와 재현율 모두에서 최소 2.8% 이상의 개선 효과가 관찰되었으며, 특히 불균형 클래스가 존재하는 상황에서 재현율 향상이 두드러졌다.
- F‑점수는 정밀도와 재현율의 조화 평균으로, 제안된 방법이 가장 높은 F‑점수를 달성함으로써 전반적인 분류 성능이 균형 있게 향상되었음을 보여준다.
- AUC 값 역시 0.95 이상으로, 기존 방법들의 평균 0.91 수준에 비해 현저히 높은 판별력을 나타냈다.
또한, 연산 시간 측면에서도 메타휴리스틱 기반 방법들에 비해 평균 40% 이상 빠른 실행 속도를 보였으며, 이는 실제 운영 환경에서 실시간 혹은 근실시간으로 특징 선택을 수행해야 하는 경우에 큰 장점으로 작용한다.
요약하면, 본 논문에서 제안한 필터‑래퍼 융합 기반 특징 선택 기법은 복잡한 메타휴리스틱 탐색 없이도 높은 성능을 유지하면서 계산 효율성을 크게 향상시킨다. 특히 원‑핫 인코딩을 통한 데이터 전처리, 랜덤 포레스트 기반 분류기 활용, 정규화된 빈도와 상호 정보를 결합한 스코어링 메커니즘은 서로 보완적인 역할을 수행하여, 최적의 특징 부분집합을 빠르게 찾아낸다. 이러한 장점은 침입 탐지와 같이 대규모 고차원 데이터를 다루는 다양한 실세계 응용 분야에 바로 적용 가능하며, 향후 다른 도메인(예: 의료 진단, 금융 사기 탐지)에서도 유사한 효과를 기대할 수 있다.