숨겨진 변수까지 고려한 인간 행동 예측 프레임워크
초록
본 논문은 웨어러블 센서의 다변량 시계열 데이터를 활용해 인간 행동을 예측할 때, 관측되지 않은 교란 변수(Z)를 추정·보정하는 새로운 디컨퓨징(Deconfounding) 모델을 제안한다. RNN 기반 잠재 변수 추정과 iTransformer·TimesNet·Non‑stationary Transformer와의 결합을 통해 기존 ARIMA·LSTM 기반 방법보다 예측 정확도와 일반화 능력을 크게 향상시켰으며, 로봇 시스템의 실시간 의사결정에 실용적인 이점을 제공한다.
상세 분석
이 연구는 인간‑로봇 상호작용(HRI) 환경에서 실시간 행동 예측이 필수적이라는 전제 하에, 기존 시계열 예측 모델이 “관측된 모든 변수는 충분히 설명한다”는 가정을 깨는 숨은 교란 요인(Z)의 존재를 명시적으로 다룬다. 저자는 먼저 시간 t에서 관측된 센서 데이터 Xₜ와 행동 Aₜ, 그리고 목표 변수 Yₜ₊ₕ 사이에 Zₜ가 동시에 영향을 미치는 인과 그래프를 제시하고, 이를 수학적으로 p(aₜ|zₜ,xₜ)=∏ⱼp(aₜⱼ|zₜ,xₜ) 형태의 조건부 분포로 표현한다.
핵심 기법은 RNN을 이용해 과거 히스토리 Ĥₜ₋₁={Āₜ₋₁,X̄ₜ₋₁,Z̄ₜ₋₁}로부터 잠재 변수 Zₜ=g(Ĥₜ₋₁)를 추정하는 것이다. 여기서 RNN은 시계열의 장기 의존성을 포착해 Zₜ를 연속적인 숨은 상태로 만든다. 추정된 Zₜ는 이후 iTransformer, TimesNet, Non‑stationary Transformer와 같은 최신 시계열 모델의 입력에 병합되어 Yₜ₊ₕ를 예측한다. 이때 모델은 손실 L = MSE(Yₜ₊ₕ, Ŷₜ₊ₕ) + λ∑ₜ‖Zₜ−g(Ĥₜ₋₁)‖² 로 학습되며, λ는 잠재 변수의 정규화를 조절한다.
이론적 정당성은 “Sequential Kallenberg Construction”을 도입해 제시된다. 정의에 따르면, 각 시점 t에서 행동 Aₜⱼ는 Zₜ, Xₜ, 그리고 독립 균등 난수 Uₜⱼ를 통해 Aₜⱼ = fₜⱼ(Zₜ,Xₜ,Uₜⱼ) 로 표현될 수 있다. 이 구성은 Uₜⱼ가 Y(·)와 조건부 독립임을 보장함으로써 Zₜ가 실제 숨은 교란을 대체할 수 있음을 증명한다. 따라서 모델은 교란 편향을 효과적으로 제거하고, 인과적으로 올바른 예측을 제공한다.
실험 부분에서는 시뮬레이션 데이터와 실제 웨어러블 센서 데이터 두 가지를 사용한다. 시뮬레이션에서는 Zₜ를 선형 결합 λᵢAₜ₋ᵢ+βᵢZₜ₋ᵢ+εₜ 로 생성해 교란 효과를 명시적으로 제어한다. 실제 데이터는 인간 움직임을 기록한 가속도·자이로스코프 시계열이며, 기존 ARIMA, LSTM, GRU 등과 비교했을 때 MAE와 RMSE에서 평균 15~25% 개선을 기록한다. 특히 장기 예측(h≥10)에서 비정상성(Non‑stationarity)을 잘 다루는 Non‑stationary Transformer와 결합했을 때 가장 큰 성능 향상이 관찰되었다.
강점으로는 (1) 교란 변수 추정을 위한 RNN 기반 인코더가 시계열 특성을 유지하면서 잠재 정보를 효과적으로 학습한다는 점, (2) 최신 시계열 모델과의 모듈식 결합으로 구현이 용이하고 다양한 도메인에 적용 가능하다는 점, (3) 이론적 보장을 제공하는 Kallenberg 기반 증명이 실험적 결과와 일치한다는 점을 들 수 있다. 반면 한계는 (가) 잠재 변수 Zₜ의 해석 가능성이 낮아 실제 로봇 시스템에서 교란 원인을 직접 파악하기 어렵다는 점, (나) RNN 인코더와 시계열 디코더 사이의 파라미터 공유가 없으므로 학습 비용이 증가한다는 점이다. 향후 연구에서는 변분 오토인코더(VAE)나 인포맥스(InfoMax) 기반의 교란 추정기를 도입해 표현력을 높이고, 교란 변수의 시각화 및 도메인 전문가 피드백을 통한 해석성을 강화할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기