탭ular 이상 탐지를 위한 최적수송 기반 보정 기법
초록
CTAD는 기존 탭ular 이상 탐지 모델에 사후 보정 신호를 추가하는 프레임워크이다. 정상 데이터의 경험적 분포와 K‑means 중심점으로 만든 구조적 분포를 정의하고, 테스트 샘플을 포함한 경험적 분포와 구조적 분포 사이의 최적수송 거리(OT)를 계산한다. 정상 샘플은 OT가 낮고, 이상 샘플은 OT가 높아 보정 점수 Δ를 얻는다. 이 Δ를 기존 이상 점수에 더함으로써 모든 기존 탐지기(밀도, 분류, 재구성, 격리 기반)를 일관되게 향상시킨다. 이론적으로 OT 거리의 하한이 샘플‑중심점 거리와 비례함을 보이고, 기대값 관점에서 이상 샘플이 정상 샘플보다 높은 보정 점수를 받는 것을 증명한다. 34개의 데이터셋과 7개의 베이스 모델에 대한 실험에서 통계적으로 유의미한 성능 개선을 확인하였다.
상세 분석
CTAD의 핵심 아이디어는 “정상 데이터는 두 개의 서로 보완적인 분포로 동시에 설명될 수 있다”는 가정이다. 첫 번째 분포 P는 훈련 데이터에서 무작위로 M개의 샘플을 추출해 만든 경험적 분포이며, 두 번째 분포 Q는 K‑means 클러스터링을 통해 얻은 K개의 중심점으로 정의된 구조적 분포이다. 두 분포는 동일한 정상 데이터 집합을 다른 관점에서 근사하기 때문에, 정상 샘플이 추가될 경우 P와 Q 사이의 호환성(compatibility)이 크게 변하지 않는다. 반면 이상 샘플은 정상 데이터의 밀집 영역을 벗어나므로, P에 포함되었을 때 Q와의 정합 비용이 급격히 증가한다. 이 정합 비용을 정량화하는 것이 최적수송 거리이다.
수식 (1)에서 정의된 OT(P∪{x}, Q) = min_T∈Π(P∪{x}, Q) ⟨T, C⟩는 비용 행렬 C_ij = Distance(x_i, y_j) 를 사용한다. 여기서 Distance는 일반적으로 유클리드 거리 혹은 정규화된 거리 함수를 쓸 수 있다. 저자들은 OT 거리의 하한을 ‖x−c_j*‖ (가장 가까운 중심점과의 거리)와 선형적으로 연결시켰으며, 이를 정리 1에 증명하였다. 즉, 샘플이 중심점에서 멀어질수록 OT는 최소한 그 거리만큼 증가한다.
이론적 분석은 두 단계로 진행된다. 첫 번째는 “Lower Bound” 단계로, 위에서 언급한 거리 하한을 통해 이상 샘플이 정상 샘플보다 반드시 큰 OT 값을 갖는 상황을 보장한다. 두 번째는 “Expected Separation” 단계로, 정상과 이상 샘플이 각각 정상 분포와 비정상 분포에서 독립적으로 추출된다고 가정하고, 기대값 E
댓글 및 학술 토론
Loading comments...
의견 남기기