모든 기호를 위한 균등한 이산화 환경 만들기

초록

본 논문은 Symbolic Aggregate Approximation(SAX) 알고리즘에서 사용되는 표준 정규분포 기반 구간 설정이 Piecewise Aggregate Approximation(PAA) 단계에서 데이터의 분산이 축소되면서 균등 확률 가정이 깨진다는 점을 지적한다. 특히 자기상관이 강한 시계열은 분산 감소가 덜하지만, 대부분의 경우 표준 정규분포를 기반으로 한 구간이 부적절해진다.

상세 분석

SAX는 시계열을 정규화한 뒤 PAA를 수행하고, 정규화된 PAA 값들을 표준 정규분포의 구간으로 매핑하여 기호열을 만든다. 이때 각 구간은 동일한 발생 확률을 갖도록 설계되는데, 이는 원본 데이터가 완전한 정규분포를 따른다는 전제에 기반한다. 그러나 PAA는 여러 연속적인 샘플을 평균으로 압축하는 과정에서 데이터의 변동성을 감소시킨다. 구체적으로, PAA 구간에 포함된 포인트 수가 많을수록 평균값의 분산은 원본 분산에 비해 1/구간길이만큼 축소된다. 또한 시계열이 높은 자기상관을 보이면 인접값이 유사해 평균값의 변동이 상대적으로 유지되지만, 자기상관이 약한 경우 평균값의 분산이 크게 감소한다. 결과적으로 PAA 후의 값들은 평균은 유지되지만 표준편차가 감소하여 표준 정규분포가 아니게 된다. 따라서 기존 SAX가 가정한 “각 기호가 동일한 확률로 등장한다”는 전제는 깨지며, 구간 경계가 실제 데이터 분포와 불일치하게 된다. 이 불일치는 거리 하한 보장 특성을 약화시키고, 기호열 기반 분류·클러스터링·패턴 탐지 성능을 저하시킬 위험이 있다. 논문은 이러한 현상을 실험적으로 확인하고, 자기상관 정도에 따라 분산 감소 정도가 달라짐을 통계적으로 입증한다. 또한, PAA 후 데이터에 다시 정규화(평균 0, 표준편차 1)하거나, 실제 분포에 맞는 구간을 재설계하는 방법을 제안한다.