트랜스포머로 숨은 상태 추정: 동적 시스템 인컨텍스트 학습
초록
본 논문은 사전 학습된 트랜스포머를 인컨텍스트 학습(ICL) 방식으로 활용해, 짧은 입력‑출력 시퀀스만으로 다양한 선형·비선형 동적 시스템의 현재 출력을 정확히 예측함을 보인다. 선형‑가우시안 경우에는 칼만 필터와 거의 동일한 성능을, 비선형 경우에는 확장 칼만 필터(EKF)와 입자 필터(PF)에 근접한 성능을 달성한다. 시스템 파라미터가 일부 누락돼도 예측 정확도가 완만히 감소하는 등, 트랜스포머가 암묵적으로 파라미터와 숨은 상태를 추정한다는 점을 강조한다.
상세 분석
이 연구는 트랜스포머가 전통적인 베이즈 필터링 알고리즘을 대체하거나 보완할 수 있음을 실험적으로 입증한다. 먼저, 선형‑가우시안 시스템에 대해 칼만 필터의 예측·업데이트 수식을 트랜스포머의 어텐션 연산과 피드포워드 블록으로 재구성한다. 키·쿼리·밸류 행렬을 적절히 초기화하면, 소프트맥스 어텐션이 칼만 이득(Kalman gain) 계산을 근사하고, 잔차(residual)와 공분산 업데이트가 피드포워드 단계에서 구현될 수 있음을 증명한다. 이론적 ‘proof‑by‑construction’을 바탕으로, 충분히 큰 모델과 𝑇≥𝑛(상태 차원) 이상의 컨텍스트 길이를 제공하면 트랜스포머가 실제 학습 과정에서 칼만 필터와 거의 동일한 MSE를 달성한다는 실험 결과를 제시한다.
비선형 시스템에 대해서는, 트랜스포머가 입력‑출력 쌍을 통해 비선형 전이 함수를 암묵적으로 학습하고, 이를 이용해 현재 상태를 추정한다. 특히, 회전율이 변하는 목표 추적 시나리오에서 트랜스포머는 EKF와 PF가 사용하는 일차적 선형화와 입자 샘플링을 대체하는 방식으로, 관측 노이즈와 모델 불확실성을 동시에 처리한다. 실험에서는 평균 제곱 예측 오차(MSPD)가 EKF와 PF보다 약 5 % 정도 낮거나 비슷한 수준을 보이며, 파라미터(예: 상태 전이 행렬 F)가 프롬프트에서 제외될 경우에도 Dual‑Kalman 필터와 유사한 성능 저하 패턴을 나타낸다. 이는 트랜스포머가 컨텍스트 내에서 파라미터를 추정하고, 추정된 파라미터를 기반으로 필터링 연산을 수행한다는 강력한 증거이다.
스케일 의존성 분석에서는, 모델 크기와 컨텍스트 길이가 필터링 행동에 결정적인 영향을 미친다. 소형 모델·짧은 컨텍스트에서는 SGD 기반의 온라인 회귀나 Ridge 회귀 수준에 머무르지만, 모델 파라미터가 100M 이상이고 컨텍스트가 상태 차원보다 2배 이상일 때 OLS 수준의 정확도와 함께 숨은 상태를 재구성하는 능력이 드러난다. 이는 트랜스포머가 메모리‑기반 연산을 통해 과거 관측을 효율적으로 요약하고, 이를 기반으로 베이즈 추정에 근접한 결과를 생성한다는 의미다.
전반적으로, 이 논문은 트랜스포머가 “비파라미터화된” 필터링 엔진으로 작동할 수 있음을 실증하고, 기존 필터링 기법과 비교해 구현 복잡도와 범용성 측면에서 장점을 제공한다. 특히, 사전 학습된 대형 언어 모델을 그대로 활용해 테스트 시점에 추가 학습 없이도 다양한 동적 시스템에 적용할 수 있다는 점은 실시간 제어·예측 분야에 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기