비선형 상태공간 모델을 위한 구조화 추론 네트워크

본 논문은 선형·비선형 가우시안 상태공간 모델(GSSM)을 학습하기 위한 통합 알고리즘을 제시한다. 인코더 역할을 하는 구조화 변분 근사(q φ)를 순환 신경망(RNN)으로 구현해 posterior를 효과적으로 추정하고, 동시에 생성 모델(p θ)의 파라미터를 최적화한다. 미래 관측을 활용한 양방향 RNN 기반 추론 네트워크가 기존의 과거‑전용 변분 근사보다 높은 held‑out likelihood를 달성함을 실험을 통해 입증한다.

저자: Rahul G. Krishnan, Uri Shalit, David Sontag

본 논문은 가우시안 상태공간 모델(Gaussian State Space Models, GSSM)의 학습과 추론을 효율적으로 수행하기 위한 통합 알고리즘을 제안한다. GSSM은 선형·비선형 전이와 관측 함수를 포함할 수 있으며, 로봇 제어, 미사일 추적, 의료 데이터 분석 등 다양한 분야에서 활용된다. 전통적인 학습 방법으로는 확장 칼만 필터, EM, 파티클 필터 등이 있으나, 이들은 고차원 시계열 데이터에 적용하기엔 계산량이 크고, 비선형 모델에서는 근사 정확도가 떨어지는 문제가 있다. 저자들은 변분 추론의 최신 기법을 차용해, posterior p(z|x)를 직접 파라미터화한 인식 네트워크 q φ(z|x)를 설계한다. 핵심 아이디어는 GSSM의 마코프 구조를 이용해 true posterior가 p(z₁|x₁…x_T)·∏_{t=2}^T p(z_t|z_{t‑1},x_t…x_T) 와 같이 factorize 된다는 점을 활용하는 것이다. 이를 모방해 q φ를 q(z₁|x₁…x_T)·∏_{t=2}^T q(z_t|z_{t‑1},x_t…x_T) 형태로 정의하고, 각 조건부는 Gaussian(μ_t, σ²_t) 로 파라미터화한다. 여기서 z_{t‑1}은 과거 정보를 요약하는 충분통계이며, x_t…x_T는 미래 관측을 제공한다. 구현은 양방향 순환 신경망(Bi‑RNN)으로 이루어진다. 과거‑쪽 RNN은 h_left_t 를, 미래‑쪽 RNN은 h_right_t 를 출력한다. 두 hidden state는 각각 “과거 메시지”와 “미래 메시지”에 해당하는 Gaussian으로 해석된다. 이 두 Gaussian을 element‑wise 곱해 variance‑weighted 평균을 취함으로써 μ_t와 σ²_t 를 얻는 combiner function을 적용한다. 이 과정은 Gaussian belief propagation과 유사하게 작동한다. 변분 하한 L은 다음과 같이 전개된다. L = Σ_{t=1}^T E_{q(z_t|x)}

비선형 상태공간 모델을 위한 구조화 추론 네트워크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기