입자 확률 근사 EM을 이용한 동역학 시스템 학습

본 논문은 입자 Gibbs with ancestor sampling(PGAS)와 확률 근사 EM(SAEM)을 결합한 PSAEM 알고리즘을 제안한다. PSAEM은 비선형·비가우시안 상태공간 모델의 파라미터와 하이퍼파라미터를 최대우도 및 경험적 베이즈 방식으로 효율적으로 추정하며, 기존의 입자 스무딩 기반 EM에 비해 계산량과 수렴 속도에서 우수함을 보인다.

저자: Andreas Lindholm, Fredrik Lindsten

입자 확률 근사 EM을 이용한 동역학 시스템 학습
본 논문은 비선형·비가우시안 상태공간 모델(동역학 시스템)의 파라미터와 하이퍼파라미터를 학습하기 위한 새로운 알고리즘, Particle Stochastic Approximation EM(PSAEM)을 제안한다. 기존의 EM 기반 방법은 숨겨진 상태의 사후분포 pθ(x₀:T|y₁:T)를 정확히 계산하기 어렵기 때문에 입자 필터/스무딩을 이용한 근사화에 의존한다. 그러나 이러한 접근은 “이중 비대칭성” 문제를 야기한다. 즉, EM 반복마다 무한히 많은 입자 샘플이 필요하고, EM 자체도 무한 반복이 요구된다. 이로 인해 계산량이 급증하고 수렴 속도가 느려진다. PSAEM은 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 결합한다. 첫 번째는 Particle Markov Chain Monte Carlo(PMCMC) 중 하나인 Particle Gibbs with Ancestor Sampling(PGAS)를 이용해, 고정된 입자 수 N에서도 목표 사후분포를 정확히 샘플링할 수 있는 마코프 커널 Πθ를 구성한다. PGAS는 조건부 입자 필터와 ancestor sampling을 통해 현재 궤적을 유지하면서 새로운 궤적을 생성한다. 이 과정은 알고리즘 1에 상세히 제시되며, 각 시간 단계에서 재샘플링, 전이, 가중치 업데이트, 그리고 역추적을 수행한다. 이 커널은 pθ(x₀:T|y₁:T)를 고유한 stationary distribution 으로 가지며, N≥2이면 균일 기하급수적 수렴성을 보인다. 두 번째는 Stochastic Approximation EM(SAEM)이다. 전통적인 Monte Carlo EM은 매 반복마다 새로운 샘플 집합을 사용해 Q‑함수를 추정하고, 이를 최대화한다. 반면 SAEM은 이전 반복까지 축적된 샘플을 이용해 Q‑함수의 스토캐스틱 근사를 점진적으로 업데이트한다. 구체적으로, 각 EM 단계에서 얻은 샘플 x₀:T^{(k)} 를 사용해 충분통계 S_k 를 α_k 비율로 업데이트하고, M‑step에서는 S_k 를 기반으로 파라미터 θ^{(k+1)} 를 최적화한다. α_k 는 일반적으로 1/k 형태로 감소시켜, Robbins‑Monro 조건을 만족하도록 한다. 이 방식은 샘플 수가 제한적이더라도 전체 알고리즘이 로그우도(또는 주변우도)의 정류점으로 수렴하도록 보장한다. 논문은 두 가지 학습 설정을 명확히 구분한다. ① Fisherian(최대우도) 설정에서는 숨겨진 상태만을 잠재 변수로 두고, Q‑함수는 로그우도에 대한 기대값으로 정의된다. ② Bayesian(경험적 베이즈) 설정에서는 파라미터 θ 자체도 잠재 변수에 포함되며, 하이퍼파라미터 η 를 최적화한다. 이 경우 Q‑함수는 사전 로그밀도 p_η(θ)와 θ 의 사후 기대값으로 분리된다. PSAEM은 두 경우 모두 동일한 PGAS‑SAEM 루프를 적용할 수 있으며, 하이퍼파라미터 추정에 추가적인 연산 비용이 거의 들지 않는다. 이론적 분석에서는 PSAEM의 수렴성을 증명한다. 핵심 가정은 (a) PGAS 커널이 균일 기하급수적으로 수렴한다는 것, (b) 충분통계의 업데이트 스텝 사이즈 α_k 가 ∑α_k = ∞, ∑α_k² < ∞ 를 만족한다는 것, (c) 로그우도와 충분통계가 Lipschitz 연속성을 가진다는 것이다. 이러한 가정 하에, PSAEM은 파라미터 추정값이 로그우도(또는 주변우도)의 stationary point 로 almost surely 수렴함을 보인다. 실험에서는 세 가지 대표적인 모델에 PSAEM을 적용한다. 첫 번째는 전통적인 비선형 상태공간 모델로, 관측 노이즈와 전이 함수가 비가우시안인 경우이다. 두 번째는 Gaussian Process State‑Space Model(GP‑SSM)으로, 전이 함수를 GP 로 표현해 비선형성을 고차원에서 캡처한다. 세 번째는 Infinite Factorial Dynamical Model로, 무한 개의 잠재 팩터를 사용해 복잡한 시계열 구조를 모델링한다. 각 실험에서 PSAEM은 기존 particle‑smoothing EM 대비 (i) 로그우도 상승 속도가 2~3배 빠르고, (ii) 파라미터 추정의 분산이 현저히 감소하며, (iii) 하이퍼파라미터 학습에서 추가적인 연산 비용이 거의 없음을 확인한다. 특히 GP‑SSM 에서는 하이퍼파라미터(커널 길이scale, 신호 변동성 등)의 경험적 베이즈 추정이 정확히 수행되어, 모델 예측 정확도가 크게 향상된다. 논문은 또한 PSAEM의 확장 가능성을 논의한다. PGAS 대신 Particle Gibbs with Backward Simulation, Blocked Particle Gibbs 등 다른 PMCMC 커널을 사용할 수 있으며, 이는 특정 모델 구조에 따라 효율성을 높일 수 있다. 또한 현재 구현은 오프라인(배치) 학습에 초점을 맞추었지만, 온라인(스트리밍) 버전도 SAEM 의 온라인 변형과 결합해 개발 가능함을 제시한다. 마지막으로 고차원 파라미터 공간에서의 스케일링 문제와, 다중 GPU/분산 환경에서의 구현 방안도 향후 연구 과제로 제시한다. 결론적으로, PSAEM은 입자 기반 MCMC와 확률 근사 EM을 결합한 강력하고 효율적인 학습 프레임워크로, 비선형·비가우시안 동역학 시스템의 파라미터와 하이퍼파라미터를 정확하고 빠르게 추정한다. 이론적 수렴 보장과 실험적 성능 향상이 동시에 입증되어, 신호 처리, 제어, 머신러닝 등 다양한 분야에서 활용 가능성이 높다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기