XGBOD 기반 하이브리드 이상 탐지
초록
XGBOD는 다수의 비지도 이상 탐지 알고리즘이 생성한 특성들을 활용해, XGBoost 분류기를 강화하는 반지도 학습 프레임워크이다. 비지도 모델이 제공하는 표현 학습과 지도 학습의 강력한 예측 능력을 결합함으로써, 기존 단일 탐지기나 전통적인 앙상블 대비 다양한 실험 데이터셋에서 뛰어난 검출 성능을 달성한다.
상세 분석
XGBOD는 기존 이상 탐지 연구에서 흔히 마주치는 두 가지 한계를 동시에 해결한다. 첫째, 순수 비지도 탐지기는 데이터의 복잡한 분포를 포착하더라도 라벨이 없는 상태에서 임계값 설정이 어려워 실제 운영 환경에서 오탐·누락이 빈번하다. 둘째, 순수 지도 기반 탐지기는 라벨이 충분히 확보되지 않을 경우 과적합 위험이 크고, 특히 이상 샘플이 극히 희소한 상황에서는 학습이 불안정해진다. XGBOD는 이러한 문제를 ‘표현 학습 + 지도 학습’이라는 두 단계 구조로 풀어낸다.
구조적으로는 먼저 여러 비지도 이상 탐지기(예: LOF, Isolation Forest, One‑Class SVM 등)를 동일 데이터에 적용해 각기 다른 이상 점수와 내부 상태(예: 거리, 깊이, 밀도 등)를 추출한다. 이때 각 알고리즘이 제공하는 점수는 서로 상보적인 정보를 담고 있어, 단일 점수보다 풍부한 특성 공간을 만든다. 추출된 점수와 원본 피처를 결합해 새로운 확장 피처 벡터를 구성하고, 이를 XGBoost라는 강력한 그래디언트 부스팅 트리 모델에 입력한다. XGBoost는 트리 기반 모델 특성상 비선형 상호작용을 자동으로 학습하고, 특성 중요도 평가를 통해 불필요한 비지도 점수를 자동으로 억제한다.
핵심 아이디어는 비지도 모델이 ‘잠재적 이상 패턴’을 탐지해 만든 표현을 지도 모델이 ‘판별 경계’를 학습하는 데 활용한다는 점이다. 이렇게 하면 비지도 모델이 놓칠 수 있는 복합적인 이상 형태도 지도 단계에서 보완될 수 있다. 또한, XGBoost의 정규화 파라미터와 학습률 조절을 통해 과적합을 방지하고, 불균형 데이터에 대한 가중치 조정이 가능해 실제 비즈니스 데이터셋에 적용하기 용이하다.
실험에서는 7개의 공개 이상 탐지 데이터셋(예: KDDCup99, Arrhythmia, Mammography 등)을 사용해 기존 단일 비지도 탐지기, 전통적인 앙상블(예: Feature Bagging), 그리고 두 개의 최신 표현 학습 기반 방법(예: Deep SVDD, RepEn)과 비교하였다. 평가 지표는 AUC‑ROC와 AUC‑PR을 중심으로 했으며, XGBOD는 대부분의 경우 3~7%p 이상의 성능 향상을 기록했다. 특히 라벨 비율이 1% 이하인 극히 희소한 상황에서도 안정적인 검출률을 유지했다는 점이 주목할 만하다.
이 논문은 비지도와 지도 학습을 단순히 결합하는 것이 아니라, 비지도 단계에서 생성된 ‘다양한 시각의 이상 점수’를 고차원 특징으로 전환하고, 이를 강력한 트리 기반 모델이 자동으로 선택·조합하도록 설계함으로써, 기존 방법들의 한계를 뛰어넘는 실용적인 프레임워크를 제시한다. 향후 연구에서는 비지도 단계에 딥러닝 기반 자동 인코더를 도입하거나, 온라인 스트리밍 환경에 맞춘 증분 학습 기법을 적용하는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기