방향 민감성을 갖는 확장 고립 포레스트
초록
본 논문은 기존 고립 포레스트의 등방성 가정을 탈피하여, 특성별·방향별 민감도를 조절할 수 있는 Anisotropic Isolation Forest(AIF)를 제안한다. 정규분포의 공분산 행렬을 비등방성으로 설정하거나 가우시안 혼합 모델을 이용해 하이퍼플레인의 법선 벡터를 샘플링함으로써, 특정 특징이나 방향에 대한 이상치 탐지 민감도를 강화하거나 완화한다. 또한 α(n)=√(nᵀAn) 형태의 방향 민감도 지표와 영역 평균 민감도 τ(B)를 정의해 사용자가 요구하는 감도 프로파일을 정량적으로 설계할 수 있다. 합성·실제 데이터 실험을 통해 AIF가 기존 EIF 대비 원하는 방향에 대한 이상치 점수를 높게 부여함을 보이며, 감도 조절이 가능한 새로운 이상치 탐지 프레임워크를 제시한다.
상세 분석
논문은 고립 기반 이상치 탐지 방법 중 가장 널리 쓰이는 Isolation Forest와 그 확장형인 Extended Isolation Forest(EIF)의 한계를 정확히 짚어낸다. 기존 EIF는 하이퍼플레인의 법선 벡터를 표준 정규분포 N(0,I)에서 무작위로 추출하므로, 모든 차원에 대해 동일한 확률 밀도를 갖는 등방성(isotropic) 특성을 가진다. 이는 실제 데이터에서 특정 피처가 다른 피처보다 이상치 판단에 더 중요한 경우에 부적합하다. 저자는 이 문제를 해결하기 위해 법선 벡터의 분포를 비등방성 다변량 정규분포 N(0,A) 혹은 가우시안 혼합 모델 Σπ_i N(0,A_i) 로 일반화한다. 여기서 공분산 행렬 A의 대각 원소 a_i 혹은 고유값 λ_i 가 클수록 해당 차원·방향에 대한 하이퍼플레인의 정렬도가 낮아지고, 결과적으로 그 방향으로의 이상치가 더 얕은 깊이에서 격리된다. 즉, α(n)=√(nᵀAn) 로 정의된 방향 민감도는 법선 벡터 분포의 분산을 직접 측정하며, α(e_i)=√a_i 로서 개별 피처 민감도를 직관적으로 해석한다. 또한, τ(B)= (1/|B|)∫_B √(nᵀAn) dn 은 특정 방향 집합 B에 대한 평균 민감도를 제공해, 복합적인 감도 프로파일을 설계할 때 유용하다.
비등방성 행렬 A가 대각이 아닐 경우, 고유벡터 g_i 와 고유값 λ_i 로 정의된 주축 방향에 따라 감도가 달라진다. 이는 복잡한 상관관계를 가진 고차원 데이터에서도 특정 선형 조합(예: 주성분) 방향에 대한 감도를 조절할 수 있음을 의미한다. 가우시안 혼합 모델을 도입함으로써, 단순 타원형(elliptical) 형태를 넘어 다중 모드·비대칭적인 민감도 패턴을 구현한다. 이는 실무에서 “특정 영역은 민감하게, 다른 영역은 둔감하게” 하는 요구를 정밀하게 만족시킨다.
알고리즘 측면에서는 트리 구축 단계에서 기존 EIF와 동일하게 샘플링된 데이터 서브셋에 대해 무작위 절단점 p와 비등방성 법선 n을 사용한다. 절단 규칙 (x−p)ᵀn < 0 은 그대로 유지되지만, n의 분포가 바뀌면서 트리 구조 자체가 감도에 따라 비대칭적으로 성장한다. 스코어링 단계는 평균 경로 길이 E
댓글 및 학술 토론
Loading comments...
의견 남기기