함수형 데이터 탐색을 위한 클러스터링·최적 구간 분할 기법

본 논문은 함수형 데이터를 K개의 클러스터로 나누고, 각 클러스터를 조각별 상수(또는 간단한 형태) 프로토타입으로 요약한다. 전체 구간 수 P를 사용자가 지정하면, 동적 계획법을 이용해 P를 클러스터별로 최적 배분하고 각 프로토타입의 구간을 최적화한다. 두 실제 데이터셋을 통해 방법의 실용성을 입증한다.

저자: Georges Hebrail, Bernard Hugueney, Yves Lechevallier

본 논문은 함수형 데이터(시간에 따라 측정된 연속적인 신호)를 효과적으로 탐색·요약하기 위한 새로운 알고리즘을 제시한다. 문제 정의는 다음과 같다. N개의 함수 s₁,…,s_N 이 주어졌을 때, 이를 K개의 클러스터로 나누고, 각 클러스터를 **단순 프로토타입**으로 대표한다. 여기서 “단순”이란 프로토타입이 **조각별 상수** 혹은 **조각별 선형** 형태를 갖는 것을 의미한다. 사용자는 전체 구간 수 P (프로토타입을 구성하는 모든 구간의 총합)를 지정하고, 알고리즘은 (1) 각 클러스터에 할당할 구간 수 p_k 를 최적 배분하고, (2) 각 클러스터의 프로토타입을 주어진 p_k 에 대해 최적 구간 분할한다. 두 단계 모두 동적 계획법(DP)을 이용해 전역 최적 해를 구한다. **1. 단일 함수 최적 구간 분할** 함수 s는 M개의 샘플 (t₁,…,t_M) 로 관측된다. 구간 I = {t_a,…,t_b} 에 대해, 구간 오류 Q(s, I) 를 정의한다. 가장 일반적인 경우는 L2‑오차이며, Q(s, I)=∑_{t∈I}(s(t)−a_I)² 로, a_I는 구간 평균이다. 구간이 독립적이므로 전체 오류는 Σ_{p=1}^{P} Q(s, I_p) 로 표현된다. DP는 F(s, k, j) = “시점 k부터 시작해 j개의 구간으로 나눌 때 최소 오류”를 재귀적으로 계산한다. 전이식은 F(s, k, j) = min_{l∈

함수형 데이터 탐색을 위한 클러스터링·최적 구간 분할 기법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기