변분 가우시안 프로세스 동적 시스템
초록
본 논문은 고차원 시계열 데이터를 비선형적으로 차원 축소하고, 잠재 공간에 동적 사전(prior)을 학습하는 변분 가우시안 프로세스 모델(VGPDS)을 제안한다. 변분 하한을 이용해 잠재 변수 X를 근사적으로 마진화함으로써 모델 복잡도와 차원 수를 자동으로 조절하고, 수백만 차원의 영상 및 인간 동작 데이터를 효과적으로 처리한다.
상세 분석
본 연구는 기존 GP‑LVM 기반 동적 모델이 MAP 추정에 의존해 잠재 변수 X를 고정하고, 동적 사전 파라미터와 차원 수를 과적합 위험에 노출시키는 한계를 극복한다. 저자들은 두 단계의 가우시안 프로세스(시간에 대한 X와 X에 대한 매핑 f)를 도입하고, 각각에 대해 독립적인 커널 함수를 정의한다. 시간 커널 k_x는 Ornstein‑Uhlenbeck, RBF, Matern‑3/2, 주기적 커널 등 다양한 형태를 선택할 수 있어 잠재 궤적의 매끄러움과 마코프성 등을 조절한다. 매핑 커널 k_f는 ARD 스케일 w_q를 포함한 RBF 형태로, 불필요한 차원을 자동으로 “스위치‑오프”한다는 장점을 갖는다.
핵심 공헌은 변분 베이지안 프레임워크를 적용해 X를 완전하게 마진화한다는 점이다. 이를 위해 저자들은 inducing point 기법을 활용해 GP‑f의 복잡도를 O(M³)로 낮추고, 변분 분포 q(X)=∏_q N(μ_q, S_q)와 q(u) 를 도입한다. 특히 S_q를 완전 공분산 행렬로 두어 데이터 포인트 간 강한 상관관계를 포착한다. 변분 하한을 최적화하는 과정에서 S_q와 μ_q에 대한 최적 조건을 도출하고, Λ_q와 λ_q라는 대각 행렬을 이용해 O(N²) 파라미터를 O(N)으로 재파라미터화한다. 이는 대규모 시계열(수천 개 시점)에서도 효율적인 학습을 가능하게 한다.
모델은 여러 독립 시퀀스를 동시에 학습할 수 있도록 설계되었다. 각 시퀀스마다 별도의 시간 커널 블록을 갖는 블록 대각 K_t를 사용해 잠재 궤적을 독립적으로 모델링하면서, 매핑 f는 모든 시퀀스에 공유한다. 이렇게 하면 공통된 동적 구조를 학습하면서도 개별 시퀀스의 특성을 보존한다.
예측 및 복원 단계에서는 새로운 시간 벡터 t에 대한 잠재 변수 X와 매핑 F를 변분적으로 추정한다. 변분 분포 q(X)는 GP 사전의 조건부 분포와 학습된 q(X)를 결합해 얻으며, 최종 예측은 Gaussian 근사와 비가우시안 적분의 평균·공분산을 analytically 계산한다.
실험에서는 CMU 모션 캡처 데이터와 고해상도 비디오(수십만 차원)를 대상으로 모델을 검증한다. 모션 캡처에서는 ARD가 자동으로 34 차원만을 유지했으며, Matern 및 RBF 동적 커널이 각각 다리와 몸통 복원에 최적 성능을 보였다. 비디오 실험에서는 원시 픽셀을 직접 입력으로 사용해 4050% 누락된 픽셀을 복원했으며, k‑NN 대비 현저히 낮은 MSE를 달성했다. 또한, 학습된 잠재 공간에서 새로운 시퀀스를 샘플링해 자연스러운 동영상 생성이 가능함을 시연했다.
전체적으로 VGPDS는 (1) 잠재 변수의 불확실성을 정량화하고, (2) 동적 사전 파라미터와 차원 수를 자동 선택하며, (3) 고차원·대규모 시계열에 대한 계산 효율성을 제공한다는 점에서 기존 GP‑DS와 MAP 기반 방법들을 크게 능가한다.
댓글 및 학술 토론
Loading comments...
의견 남기기