선택적 상태공간 모델을 통한 베이지안 최적 인컨텍스트 학습

본 논문은 인컨텍스트 학습(ICL)을 베이지안 최적 순차 예측 원리로 재해석한다. 선형 가우시안 상태공간 모델(LG‑SSM) 과제군에 대해 메타‑학습된 선택적 상태공간 모델(Selective SSM)이 점차 베이지안 사후 예측 평균에 수렴함을 증명하고, 시간 상관 잡음이 있는 경우 경험적 위험 최소화(ERM) 기반 변환기보다 엄격히 낮은 위험을 달성한다는 통계적 구분을 제시한다. 합성 실험과 문자‑레벨 마르코프 벤치마크를 통해 선택적 SSM이 …

저자: Di Zhang, Jiaqi Xing

본 논문은 최근 인컨텍스트 학습(ICL)이 변환기 모델에서 암묵적 경사 하강법으로 해석되는 기존 패러다임을 비판하고, 선택적 상태공간 모델(Selective State Space Models, SSM)이 베이지안 최적 순차 예측 원리를 구현한다는 새로운 이론적 틀을 제시한다. 연구는 크게 네 부분으로 구성된다. 첫째, 문제 정의 단계에서 저자는 과제 공간을 선형 가우시안 상태공간 모델(LG‑SSM) 로 설정한다. 각 과제 τ는 전이 행렬 A_τ, 관측 행렬 C_τ, 전이 잡음 공분산 Q_τ, 관측 잡음 공분산 R_τ 로 파라미터화된 동적 시스템이며, 이 파라미터는 사전 π(θ) 로부터 샘플링된다. 에이전트는 k개의 연속 관측 C_k=(x₁,…,x_k)를 보고 다음 관측 x_{k+1}을 예측한다. 목표는 평균 제곱오차를 최소화하는 베이지안 위험 R_k(f)=E‖f(C_k)−x_{k+1}‖² 를 최소화하는 함수 f 를 찾는 것이다. 베이지안 최적 예측기는 사후 예측 평균 f*_k(C_k)=E

선택적 상태공간 모델을 통한 베이지안 최적 인컨텍스트 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기