엔터티 임베딩 기반 이질 범주 이벤트 이상 탐지
초록
본 논문은 서로 다른 유형의 범주형 엔터티가 결합된 이벤트를 대상으로, 엔터티를 공동 임베딩 공간에 매핑하고, 유형별 가중치를 부여한 쌍별 상호작용을 통해 이벤트 발생 확률을 모델링한다. Noise‑Contrastive Estimation과 컨텍스트‑종속 노이즈 분포를 이용해 대규모 이벤트 공간에서도 효율적으로 학습하며, 실제 기업 감시 데이터에서 기존 방법 대비 높은 이상 탐지 정확도를 입증한다.
상세 분석
APE(Anomaly detection via Probabilistic pairwise interaction and Entity embedding) 모델은 이질 범주 이벤트를 “엔터티 집합”으로 바라보고, 각 엔터티를 d‑차원 실수 벡터 v a 로 표현한다. 이때 동일한 잠재 공간에 모든 유형의 엔터티를 배치함으로써, 기존 범주형 데이터가 갖는 거리·유사도 부재 문제를 자연스럽게 해소한다. 모델의 핵심 스코어링 함수 Sθ(e)는 모든 엔터티 유형 쌍 (i, j)에 대해 가중치 w_ij ≥ 0 를 곱한 내적(v_ai·v_aj)의 합으로 정의된다. 즉, Sθ(e)=∑{i<j} w_ij (v_ai·v_aj). 여기서 w_ij 은 유형 간 상호작용 중요도를 학습 가능한 파라미터로 두어, 사용자‑프로세스, 시간‑프로세스 등 의미상 중요한 쌍에 높은 가중치를 할당한다. 이러한 쌍별 상호작용은 전역적인 고차원 조합을 모두 모델링하는 것보다 과적합 위험이 적고, 해석 가능성도 높다.
확률 모델 Pθ(e)=exp(Sθ(e)+c)/Z는 정규화 상수 Z가 전체 이벤트 공간 Ω에 대해 계산돼야 하는데, Ω는 실질적으로 exp(m) 규모로 불가능하다. 이를 해결하기 위해 논문은 Noise‑Contrastive Estimation(NCE)을 도입한다. NCE는 실제 데이터와 인위적인 노이즈 샘플을 구분하는 이진 분류 문제로 변환함으로써 정규화 상수를 별도 파라미터 c 로 추정한다. 특히, “컨텍스트‑종속” 노이즈 분포를 설계하여, 관측 이벤트 e에서 임의의 엔터티 유형 A_i 를 선택하고 해당 유형의 다른 엔터티 a’i 를 샘플링해 e’를 만든다. 이렇게 한 엔터티만 교체한 노이즈는 원 데이터와 구조적으로 유사해 학습 효율을 크게 높인다. 노이즈 확률 P_n(e’)는 정확히 계산하기 어려우므로, P_n(e’)≈P{A_i}(a’_i)+const 로 근사하고, 상수는 학습에 영향을 주지 않으므로 무시한다.
학습 복잡도는 O(N k m² d) 로, N은 관측 이벤트 수, k는 노이즈 샘플 수, m은 엔터티 유형 수, d는 임베딩 차원이다. 따라서 이벤트 조합이 기하급수적으로 늘어나도 선형적으로 확장 가능하다. 실험에서는 두 개의 실제 기업 로그 데이터셋(P2P, P2I)을 사용했으며, 각 데이터셋은 7~24개의 시간 엔터티, 수백에서 수천 개의 사용자·프로세스·IP·포트 등 다양한 유형을 포함한다. 라벨이 없으므로 대부분 정상이라고 가정하고, 모델이 낮은 확률을 부여한 이벤트를 이상으로 판단한다. 비교 대상으로는 기존 히스토그램 기반, 베이지안 네트워크, 그래프 기반 이상 탐지 기법 등을 사용했으며, APE는 정밀도·재현율·AUC 모두에서 우수한 성능을 보였다. 또한, w_ij 값 분석을 통해 어떤 엔터티 쌍이 비정상 행동을 주도하는지 해석 가능함을 확인했다.
이 논문의 주요 기여는 (1) 범주형 엔터티를 공동 임베딩으로 통합해 거리·유사도를 자연스럽게 정의한 점, (2) 유형별 가중치를 통한 쌍별 상호작용 모델링으로 과적합을 방지하고 해석성을 제공한 점, (3) 컨텍스트‑종속 노이즈를 활용한 NCE 학습으로 대규모 이벤트 공간에서도 효율적인 파라미터 추정이 가능하도록 만든 점이다. 이러한 접근은 보안 로그, 거래 기록, 소셜 네트워크 등 다양한 이질 범주 데이터에 적용 가능하며, 향후 엔터티 유형 간 비선형 상호작용을 모델링하거나, 시계열적 연속성을 포함한 확장 연구가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기