시간 시계열 분류를 위한 다중인스턴스 호프딩 트리 MIHT
초록
MIHT는 가변 길이와 다변량 시계열을 “부분 시계열 가방”으로 변환하고, 증분형 호프딩 트리를 기반으로 핵심 구간을 자동 선택해 분류하는 모델이다. 다중인스턴스 학습(MIL)과 Hoeffding bound를 결합해 높은 정확도와 트리 구조를 통한 해석 가능성을 동시에 제공한다. 28개의 공개 데이터셋에서 11개 최신 방법을 능가하는 성능을 보였다.
상세 분석
본 논문은 가변 길이·다변량 시계열 분류에 대한 근본적인 한계를 다중인스턴스 학습(MIL) 프레임워크와 증분형 결정 트리(Hoeffding Tree, HT)를 결합함으로써 해결한다. 먼저 원본 시계열 X를 고정된 길이 ω의 슬라이딩 윈도우와 겹침 λ를 적용해 연속적인 서브시리즈 iₖ를 생성하고, 이를 순서가 보존된 인스턴스 집합 B로 구성한다. 이렇게 만든 “bag of subseries”는 기존 MIL이 시간 정보를 무시하는 단점을 보완한다.
핵심 학습 엔진은 Hoeffding Bound를 이용해 통계적으로 유의미한 분할을 실시간으로 수행하는 IDT이다. 각 리프 노드에서는 관측된 클래스 분포 W, W_c, W_s, W_{c,s}를 누적하고, κ개의 인스턴스가 도달하면 현재 최적 분할 후보 s_i, s_j의 정보이득 차이 G_i‑G_j와 ε(Hoeffding bound)를 비교한다. 차이가 ε를 초과하면 해당 속성을 기준으로 리프를 분할하고, 연속적인 스트림 데이터에도 과거 정보를 잃지 않는다.
MIHT는 초기 전체 인스턴스로 HT를 학습한 뒤, 각 bag에서 k개의 가장 대표적인 인스턴스 τ를 찾는 최적화 과정을 도입한다. τ는 식 (1)에서 정의된 가중치 γ에 따라 bag‑level likelihood L을 최대화하도록 선택되며, 선택된 τ만을 사용해 HT를 재학습한다. 이 반복적 강화 단계는 “시계열 개념 σ”가 전체 시계열이 아닌 특정 구간에 집중된다는 가정을 실현한다.
해석 가능성 측면에서, 최종 모델은 단일 트리 구조를 유지하므로 중요한 변수와 구간이 어떤 분할 규칙으로 나타나는지 직관적으로 파악할 수 있다. 범주형·연속형 속성 모두를 지원하며, 변수별 중요도는 트리 깊이와 분할 빈도로 추정한다.
실험에서는 UCR·UEA 등 28개의 다변량·고차원 데이터셋을 사용해 11개의 최신 TSC 방법(DrCIF, InceptionTime, ROCKET 등)과 비교하였다. 평균 정확도, F1‑score, 학습·예측 시간 모두에서 MIHT가 우위를 보였으며, 특히 길이가 크게 다른 시계열과 차원이 1000을 초과하는 데이터에서 강건함을 입증했다.
한계점으로는 윈도우 길이 ω, 겹침 λ, 대표 인스턴스 수 k 등 하이퍼파라미터 선택이 도메인에 따라 민감할 수 있다는 점이다. 또한, 매우 짧은 시계열에서는 bag‑size가 작아 통계적 분할이 불안정해질 가능성이 있다. 향후 연구에서는 자동 파라미터 튜닝 및 비선형 분할 기준(예: XGBoost‑style) 도입을 통해 성능을 더욱 향상시킬 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기