유사도 탐색 기반 활성학습으로 이상탐지 경계 정밀화
초록
본 논문은 고차원·극단 불균형 데이터에서 희귀 이상을 탐지하기 위해, 희소성·대립·주의 메커니즘을 결합한 자동인코더(SDA²E)를 제안한다. 또한 정상·이상 유사도 검색을 활용한 세 가지 활성학습 전략(정상‑유사 확장, 이상‑유사 우선, 하이브리드)을 도입해 라벨링 비용을 최대 80% 절감하면서 nDCG 1.0에 근접하는 순위 성능을 달성한다. 새로운 이진 임베딩 유사도 지표 SIM_NM1을 설계하고, 52개 데이터셋·DARPA TC 시나리오에서 15개 최신 방법과 비교 실험을 수행해 통계적 유의성을 입증하였다.
상세 분석
본 연구는 두 가지 핵심 혁신을 제시한다. 첫째, SDA²E(Sparse Dual Adversarial Attention‑based AutoEncoder) 구조는 입력 차원을 희소하게 압축하고, 두 개의 대립 네트워크(Generator‑like와 Discriminator‑like)를 통해 잠재 공간의 분포를 정교하게 조정한다. 희소성 정규화(L1 혹은 KL‑based)와 어텐션 모듈을 결합함으로써 고차원 탭형 데이터에서 의미 있는 피처만을 강조하고, 잡음 피처는 자연스럽게 억제한다. 대립 학습은 잠재 벡터가 정상·이상 두 군집을 명확히 구분하도록 유도하며, 재구성 오류와 판별기 신뢰도를 동시에 최적화한다는 점에서 기존 단일 목적 자동인코더와 차별화된다.
둘째, 활성학습 루프에 ‘유사도 탐색’이라는 메타 전략을 삽입했다. 기존의 불확실성 기반 쿼리(예: entropy, margin)와 달리, 저자는 라벨이 부여된 정상·이상 샘플을 기준으로 고차원 임베딩 공간에서 가장 근접한 비라벨 샘플을 찾아 선택한다. 이를 위해 설계된 SIM_NM1(Normalized Matching 1s) 지표는 희소 이진 벡터의 매칭 1의 비율을 정규화해, 대규모 데이터셋에서도 계산 비용을 O(N·d) 수준으로 유지한다.
세 가지 선택 전략은 다음과 같다.
- 정상‑유사 확장(Normal‑like expansion): 정상 라벨을 가진 샘플과 높은 SIM_NM1 값을 가진 비라벨을 추가 학습시켜, 정상 클래스의 재구성 품질을 향상시킨다. 이는 잠재 공간에서 정상 클러스터를 더 촘촘히 채워 모델의 과적합을 방지한다.
- 이상‑유사 우선(Anomaly‑like prioritization): 알려진 이상과 유사한 샘플을 우선적으로 라벨링해, 이상 샘플이 잠재 공간에서 차지하는 영역을 빠르게 탐색한다. 이는 nDCG와 같은 순위 기반 평가에서 상위 정밀도를 크게 끌어올린다.
- 하이브리드(Hybrid): 위 두 전략을 비율(예: 1:1)로 혼합해 정상·이상 양쪽의 경계를 동시에 정제한다. 실험 결과, 하이브리드가 가장 안정적인 성능 향상을 제공한다.
통계적 검증에서는 Friedman 테스트와 Nemenyi 사후 검정을 적용해, SDA²E+활성학습 조합이 모든 비교 대상보다 유의하게 우수함을 확인했다. 특히 라벨링 비용을 20% 수준으로 축소했음에도 불구하고, 평균 nDCG가 0.92→0.97으로 상승했으며, AUC와 F1‑score에서도 일관된 개선을 보였다.
이러한 설계는 사이버 보안, 특히 APT 탐지와 같이 라벨링이 비용·시간적으로 어려운 환경에 최적화되어 있다. 모델이 정상·이상 데이터의 구조적 관계를 명시적으로 활용함으로써, 기존 방법이 놓치기 쉬운 미세한 이상 패턴도 포착한다는 점이 큰 강점이다.
댓글 및 학술 토론
Loading comments...
의견 남기기