잠재 추적: 잠재 필터링을 통한 순차 가중치 생성
초록
LatentTrack(LT)은 저차원 잠재 상태 zₜ를 베이지안 필터링으로 추정하고, 이를 경량 하이퍼네트워크에 입력해 매 시점마다 예측 모델의 파라미터 θₜ를 생성한다. amortized inference와 Monte Carlo 샘플링을 이용해 상수 시간(O(1))으로 온라인 적응이 가능하며, 구조화된(마코프)와 비구조화된 잠재 동역학을 동일한 ELBO 프레임워크에서 학습한다. Jena 기후 데이터의 장기 온라인 회귀 실험에서 NLL과 MSE 측면에서 기존 상태 기반 모델(VRNN, DSSM) 및 정적 불확실성 모델(Ensemble, MC‑Dropout)을 지속적으로 능가하고, 캘리브레이션도 경쟁력을 보인다.
상세 분석
LatentTrack은 “함수 공간 필터링”이라는 새로운 관점을 제시한다. 전통적인 시계열 모델은 관측값 yₜ 또는 은닉 상태 hₜ 위에 베이지안 필터링을 적용하지만, LT는 저차원 잠재 변수 zₜ 가 직접 예측 모델의 가중치를 생성하도록 설계했다. 이 설계는 두 가지 핵심 장점을 만든다. 첫째, 잠재 변수의 차원을 작게 유지하면서도 하이퍼네트워크 g_η 가 복잡한 함수 클래스(예: 다층 퍼셉트론)를 실시간으로 재구성하므로, 모델 용량이 ‘가중치 생성’ 단계에 집중된다. 이는 “잠재 추론을 단순화하고 함수 생성에 용량을 집중”한다는 저자 가설과 일치한다. 둘째, 매 시점마다 θₜ 를 재생성함으로써 파라미터 자체가 시간에 따라 변하고, 이는 비정상(non‑stationary) 환경에서 급격한 분포 변화를 자연스럽게 추적한다.
학습 목표는 변분 필터링 ELBO를 기반으로 한다. 일반 형태(식 2)는 현재 관측 Dₜ 에 대한 로그우도 하한을 제공하고, KL 항은 현재 후방 q_ψ(zₜ|D₁:ₜ)와 이전 데이터에 기반한 일‑스텝 사전 p_ϕ(zₜ|D₁:ₜ₋₁) 사이의 차이를 최소화한다. 저자는 여기서 두 가지 변형을 제시한다. (1) “구조화된” KL (식 3)은 전 단계 zₜ₋₁ 에 조건화된 전이 p_ϕ(zₜ|zₜ₋₁, ·)와 비교함으로써 시간적 일관성을 강화하고, 잠재 드리프트를 억제한다. (2) “비구조화된” KL은 단순히 마진 사전과 비교해 보다 느슨하지만 계산적으로 간단하다. 두 변형을 각각 LT‑Structured와 LT‑Unstructured라 명명하고, 실험에서 구조화된 버전이 더 안정적인 순위와 낮은 NLL을 보였다.
잠재 상태 zₜ 는 GRU 기반 요약 hₜ 에 의해 조건화된다. 요약은 관측 Dₜ 을 인코더 Enc_ψ 로 변환한 뒤, 이전 요약과 결합해 업데이트한다. 이 설계는 기존 RNN 기반 상태공간 모델과 호환되면서도, 하이퍼네트워크가 독립적으로 가중치를 재생성하도록 만든다. 추론 단계에서는 K 개의 z 샘플을 뽑아 각각에 대해 θ 를 생성하고, 이를 평균화해 예측 혼합 p̂(yₜ|xₜ) 를 만든다. 가우시안 헤드의 경우 평균은 K 샘플 평균, 분산은 aleatoric + epistemic 형태로 분해된다.
복잡도 측면에서 LT는 매 시점 O(1) 연산을 유지한다. 전통적인 변분 RNN(VRNN)이나 딥 스테이트‑스페이스 모델(DSSM)은 매 스텝마다 역전파를 수행하거나, 파라미터를 직접 업데이트한다. 반면 LT는 테스트 시점에 전혀 그라디언트를 계산하지 않으며, 단순히 하이퍼네트워크를 통과시켜 새로운 θ 를 얻는다. 이는 실시간 시스템이나 엣지 디바이스에 유리한 특성이다.
실험은 Jena Climate 데이터셋을 사용해 6시간 해상도로 다운샘플링하고, 36시간(6 스텝) 앞을 예측한다. 전체 시퀀스의 70%를 학습, 30%를 평가에 사용했으며, 평가 기간 동안 계절 전이와 급격한 기후 변화가 포함돼 비정상성을 충분히 검증한다. 평가 지표는 NLL, MSE, 그리고 순위 안정성(시간별 Top‑3 비율)이다. 결과는 다음과 같다. LT‑Structured는 NLL 평균 6.29(Trimmed)로 가장 낮으며, Rank‑1 비율 58.8%를 기록해 다른 모델을 크게 앞선다. MSE에서도 평균 10095.7(Trimmed)로 최우수이며, Rank‑1 비율 51.4%를 달성한다. 반면 VRNN과 DSSM은 각각 NLL 3.44/2.97, MSE 112.17/69.68으로 뒤처진다. 정적 베이스라인인 Deep Ensembles와 MC‑Dropout은 파라미터 수와 추론 비용을 맞추기 위해 여러 모델을 훈련했지만, 시간적 일관성에서 크게 뒤처진다. 또한, catastrophic failure rate(극단적 NLL 초과)에서도 LT‑Structured가 가장 낮은 비율을 보였다.
한계점도 존재한다. 첫째, 잠재 차원 d 를 8로 고정했는데, 복잡한 비정상성을 가진 다른 도메인(예: 금융 시계열)에서는 더 큰 차원이 필요할 수 있다. 둘째, 하이퍼네트워크 자체가 비교적 단순한 선형‑가우시안 매핑을 사용했으며, 더 복잡한 비선형 매핑이 성능을 향상시킬 가능성이 있다. 셋째, 현재는 입력 xₜ 의 동역학을 모델링하지 않으며, 입력 자체가 변할 경우(예: 결측치, 외부 이벤트) 추가적인 메커니즘이 필요하다. 마지막으로, Monte Carlo 샘플 K 를 100으로 늘리면 예측 분산이 더 정확해지지만, 실시간 제약이 있는 환경에서는 비용이 증가한다.
전반적으로 LatentTrack은 “잠재 가중치 생성 + 베이지안 필터링”이라는 새로운 패러다임을 제시하며, 비정상적인 스트리밍 환경에서 고정된 파라미터 모델보다 더 나은 예측 정확도와 캘리브레이션을 제공한다. 함수 공간에서의 필터링이라는 아이디어는 향후 시계열 예측, 강화학습 정책 업데이트, 그리고 온라인 메타러닝 등 다양한 분야에 확장 가능성을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기