수치형 속성을 활용한 이상치 특성 탐지와 설명 기법

본 논문은 이상치로 사전에 지정된 객체가 데이터베이스 내 다른 객체와 구별되는 속성을 자동으로 찾아내는 “이상치 특성 탐지” 문제를 다룬다. 기존 연구는 주로 범주형 데이터에 초점을 맞추었으나, 저자는 연속형(수치형) 속성에 대한 일반화된 이상치 점수를 제안한다. 이 점수는 속성값의 확률밀도함수(pdf)와 누적분포함수(cdf)를 이용해 해당 값이 전체 분포에서 얼마나 드문지를 정량화한다. 또한, 의미 있는 서브셋(규칙 기반 설명)을 효율적으로 …

저자: Fabrizio Angiulli, Fabio Fassetti, Luigi Palopoli

수치형 속성을 활용한 이상치 특성 탐지와 설명 기법
**1. 연구 배경 및 문제 정의** 데이터 마이닝에서 이상치 탐지는 오래된 주제이지만, 대부분의 기존 방법은 이상치를 식별하는 데에만 초점을 맞추고, 왜 해당 객체가 이상치인지에 대한 설명을 제공하지 않는다. 저자들은 “이상치 특성 탐지(outlying property detection)”라는 새로운 과제를 제시한다. 여기서는 이미 이상치로 지정된 객체 o가 데이터베이스 DB 내 다른 객체와 구별되는 속성(특성)과, 그 특성을 설명할 수 있는 서브셋(조건 집합)을 자동으로 찾아낸다. **2. 이상치 점수(outlierness) 정의** 각 속성 a에 대해 확률밀도함수 f_a(x)를 추정한다. 이 pdf값 자체만으로는 이상치를 판단하기 어렵기 때문에, pdf값 자체를 확률변수 X_fa 로 보고 그 누적분포함수 G_a(f)를 정의한다. out_a(o) = Ω

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기