다중 기준 이상 탐지를 위한 파레토 깊이 분석
초록
본 논문은 여러 개의 거리·유사도 기준을 동시에 고려하는 비모수적 이상 탐지 방법인 파레토 깊이 분석(PDA)을 제안한다. 각 데이터 쌍을 K 차원의 “다이아드”(dyad)로 변환하고, 이 다이아드들에 대해 파레토 프론트를 단계별로 구해 깊이(depth)를 할당한다. 테스트 샘플과 연관된 다이아드들의 평균 깊이가 얕을수록 정상, 깊을수록 이상으로 판단한다. PDA는 가중치 선택 없이도 모든 선형 조합을 포괄하며, 기준 수에 대해 선형적으로 확장된다.
상세 분석
본 연구는 기존 이상 탐지 기법이 단일 거리 기준에 의존하는 한계를 지적하고, 다중 기준을 동시에 활용할 필요성을 강조한다. 이를 위해 저자들은 “다이아드”라는 개념을 도입한다. 다이아드는 두 샘플 사이의 K 개 거리(또는 유사도) 값을 K 차원 벡터로 표현한 것으로, 각 차원은 서로 다른 평가 기준을 의미한다. 모든 가능한 다이아드 집합 D에 대해 파레토 우위 관계를 정의하고, 지배되지 않는 다이아드들을 첫 번째 파레토 프론트(F₁)라 부른다. 이후 F₁을 제거하고 남은 집합에서 다시 파레토 프론트를 구해 두 번째 프론트(F₂)를 만든다. 이 과정을 모든 다이아드가 소진될 때까지 반복하면 각 다이아드에 “깊이(depth)” 라는 정수 라벨이 부여된다.
논문은 두 가지 주요 이론적 결과를 제시한다. 첫째, 연속적인 확률 밀도 f를 갖는 d 차원 공간에서 첫 번째 파레토 프론트에 포함되는 점들의 기대 개수는 n^{(d‑1)/d}에 비례한다는 정리이다. 둘째, 선형 가중합(스칼라화)으로 얻을 수 있는 파레토 최적점 집합 L과 전체 파레토 최적점 집합 F 사이의 차이를 분석한다. 특히, 비볼록 영역이나 샘플링 잡음에 의해 발생하는 “비볼록성”은 L에 포함되지 못하는 많은 파레토 점을 만든다. 정리 1과 정리 2는 이러한 비볼록성의 기여를 정량화하고, 선형 스칼라화가 파레토 프론트의 상당 부분을 놓친다는 것을 수학적으로 증명한다.
이론적 근거를 바탕으로 PDA 알고리즘을 설계한다. 학습 단계에서는 모든 훈련 샘플 쌍에 대해 다이아드를 계산하고 파레토 프론트를 층층이 구해 각 다이아드의 깊이를 저장한다. 테스트 단계에서는 테스트 샘플 x와 모든 훈련 샘플 i 사이의 다이아드 D_{xi}를 만든 뒤, 해당 다이아드들의 깊이 값을 평균하거나 최대값 등으로 집계한다. 이 집계값이 사전에 정의된 임계값을 초과하면 x를 이상치로 판정한다.
알고리즘 복잡도 분석에 따르면, 파레토 프론트 계산은 각 기준에 대해 O(N²)개의 거리 계산이 필요하지만, 깊이 할당 과정은 K(기준 수)에 대해 선형적으로 확장된다. 따라서 기준 수가 늘어나도 계산량이 급격히 증가하지 않는다. 실험에서는 합성 데이터와 실제 영상 트래젝터리 데이터, 그리고 네트워크 트래픽 데이터에 PDA를 적용했으며, 기존 k‑NN 기반 이상 탐지, 거리 가중합, 그리고 다중 커널 방법과 비교했을 때 AUC가 평균 5~12% 향상되는 결과를 보였다. 특히 기준 간 상충이 심한 상황(예: 속도와 궤적 형태)에서 PDA의 성능 우위가 두드러졌다.
요약하면, PDA는 다중 기준을 동시에 고려하면서 가중치 선택 문제를 회피하고, 파레토 최적점의 구조적 특성을 이용해 이상치를 효과적으로 구분한다는 점에서 기존 방법에 비해 이론적·실용적 장점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기