스케일 오프셋 보정과 지역 강조를 위한 동적 시간 왜곡 확장
초록
본 논문은 기존 동적 시간 왜곡(DTW)의 한계를 보완하기 위해 두 가지 변형인 Affine DTW(ADTW)와 Regional DTW(RDTW)를 제안한다. ADTW는 전체 시계열에 대한 스케일과 오프셋을 동시에 추정하며, RDTW는 지정된 지역 폭을 이용해 특정 구간에 가중치를 부여한다. 또한 전역 스케일 적용 버전(GARDTW)과 지역별 스케일 적용 버전(LARDTW)으로 결합하여, 스케일·오프셋 보정과 지역 강조를 동시에 달성한다. 실험 결과, 제안 방법들은 시뮬레이션 데이터와 실제 데이터셋에서 기존 DTW 및 최신 정렬 기법보다 우수한 정렬 품질과 1‑NN 분류 성능을 보였다.
상세 분석
본 연구는 DTW가 비선형 시간 변형을 다루는 데 강점이 있지만, 진폭 스케일·오프셋 차이나 특정 구간의 중요도를 반영하지 못한다는 점을 지적한다. 이를 해결하기 위해 제안된 ADTW는 시계열 s를 t의 스케일 c와 오프셋 e가 적용된 형태로 모델링한다. 최적 정렬 p, 스케일 c, 오프셋 e를 동시에 찾는 문제는 동적 프로그래밍이 직접 적용될 수 없으므로, Hard EM 알고리즘을 도입해 p와 (c, e)를 교대로 업데이트한다. 각 EM 단계에서 p는 현재 (c, e) 값을 이용해 변환된 t에 DTW를 적용해 얻으며, (c, e)는 현재 정렬 p에 대해 최소제곱 해를 구해 계산한다. 이 과정은 수렴 보장이 있으며, 전체 복잡도는 O(n·nc·wb) (nc: EM 반복 횟수, wb: Sakoe‑Chiba 밴드 폭)이다.
RDTW는 점별 거리 대신 반경 wh 내의 지역 평균 거리를 사용한다. 지역 거리 dr은 해당 윈도우 내 모든 점 쌍의 거리 합을 정규화한 값이며, 이를 DTW의 비용 함수에 대입한다. 지역 폭을 조절함으로써 특정 패턴(예: 근육 전위의 국소 구간)에게 더 큰 영향을 주도록 설계되었다. 구현상 dr을 누적 합으로 업데이트하면 대부분의 테이블 셀을 O(1) 시간에 계산할 수 있어 전체 복잡도는 기존 DTW와 동일하게 O(wb·n)이다.
GARDTW는 ADTW와 RDTW를 전역적으로 결합한다. 즉, 전체 시계열에 대한 스케일·오프셋을 추정하면서 지역 거리 dr을 사용한다. 이 역시 Hard EM을 적용해 p와 (c, e)를 교대로 최적화한다. LARDTW는 보다 세밀한 모델링을 제공하는데, 매 정렬 쌍 (sa, tb)마다 독립적인 스케일 ca,b와 오프셋 ea,b를 지역 윈도우 내에서 최소제곱으로 추정한다. 따라서 각 매칭 구간마다 다른 변환 파라미터를 허용함으로써, 지역별 진폭 변동이 큰 데이터(예: 전극 이동에 따른 근전도 신호)에서 뛰어난 정렬 품질을 보인다.
실험에서는 (1) 스케일·오프셋이 존재하는 합성 온도 시계열, (2) 서로 다른 중첩을 가진 근육 전위 신호, (3) 강우량 데이터 등 다양한 도메인을 사용했다. 시뮬레이션에서는 ADTW가 DTW보다 평균 정렬 비용이 30 % 이상 감소했으며, RDTW는 적절한 지역 폭 선택 시 정렬 오류를 크게 줄였다. 실제 UCR 타임시리즈 데이터베이스의 85개 데이터셋에 대해 1‑NN 분류를 수행했을 때, GARDTW와 LARDTW는 기존 DTW 기반 거리와 최신 정렬 기반 거리(예: Soft‑DTW, ShapeDTW)와 비교해 평균 정확도 1‑2 %p 상승을 기록했다. 또한 제안 방법들의 파라미터(스케일 범위, 지역 폭)는 교차 검증을 통해 자동 선택 가능하도록 설계되었다.
이러한 결과는 스케일·오프셋 보정과 지역 강조가 동시에 필요한 실세계 시계열 분석에 있어, 기존 DTW만을 사용하는 것보다 훨씬 더 유연하고 정확한 정렬을 제공함을 시사한다. 또한 Hard EM 기반 최적화가 계산 비용을 크게 증가시키지 않으면서도 충분히 수렴한다는 점에서 실용성이 높다.
댓글 및 학술 토론
Loading comments...
의견 남기기