지원되지 않는 영역 일반화를 위한 가중치 시퀀스 모델링
초록
본 논문은 훈련 데이터의 지원(support)과 겹치지 않는 테스트 샘플에 대해 모델이 안정적으로 예측하도록, 입력 공간을 동심원(또는 “링”)으로 분할하고 각 링에 대응하는 가중치를 시계열로 학습하는 WeightCaster 프레임워크를 제안한다. 가중치 시퀀스를 예측하는 순차 모델을 통해 외부 링의 가중치를 추론하고, 1차 테일러 전개를 이용한 선형화로 불확실성을 정량화한다. 합성 코사인 데이터와 실제 대기질 센서 데이터에서 기존 MLP, Gaussian Process, Engression 대비 경쟁력 있는 성능과 합리적인 불확실성 추정이 확인되었다.
상세 분석
WeightCaster는 기존 딥러닝이 훈련 분포 밖에서 과신하는 문제를 “가중치 공간에서의 시계열 예측”이라는 새로운 관점으로 해결한다. 먼저 입력 공간을 거리 기반 메트릭으로 측정하고, 임의의 앵커 포인트를 중심으로 동일한 반경 δ를 갖는 T개의 링(또는 구형 껍질)으로 나눈다. 각 링은 훈련 데이터가 존재하는 경우와 존재하지 않는 경우가 명확히 구분되며, 훈련 데이터가 포함된 최외곽 링까지를 T_tr이라 정의한다. 전통적인 모델은 전체 훈련 영역에 대해 하나의 파라미터 집합 θ를 학습하지만, WeightCaster는 각 링 t마다 별도의 파라미터 θ_t를 할당한다. 이러한 파라미터 집합 {θ_t}는 시간 축을 따라 순차적으로 전개되며, 이를 초기값 θ_1과 시퀀스 모델 G_ϕ(·)에 의해 정의된 동적 시스템으로 본다. 구체적으로, θ_{t+1}=G_ϕ(θ_t) 형태의 재귀 관계를 학습하며, G_ϕ는 Transformer, LSTM, SSM 등 任意의 시퀀스‑투‑시퀀스 모델이 될 수 있다. 학습 목표는 (1) 각 훈련 링에 대해 손실 ℓ(f_{θ_t}(x), y)를 최소화하고, (2) 전체 시퀀스가 일관된 동역학을 갖도록 θ_1과 ϕ를 공동 최적화하는 것이다.
불확실성 추정을 위해서는 θ_t를 확률적 변수로 확장한다. G_ϕ는 평균 μ_t와 표준편차 σ_t를 출력하고, 재파라미터화 기법을 이용해 θ_t=μ_t+σ_t⊙ε (ε∼N(0,I)) 로 샘플링한다. 이후 1차 테일러 전개 f_{θ}(x)≈f_{μ_t}(x)+J(θ−μ_t) (J는 Jacobian) 를 적용해 출력 y의 분포를 N(μ_y, Σ_y) 로 근사한다. 여기서 Σ_y=J·diag(σ_t^2)·J^T+σ_noise^2 I 로 계산되며, 이는 모델 파라미터 불확실성이 예측에 어떻게 전파되는지를 명시적으로 보여준다. 또한 손실에 KL 발산 항 β·D_KL(N(μ_y,Σ_y)||N(0,I)) 를 추가해 OoS 영역에서 과도한 확신을 억제하고, 사전 분포로 자연스럽게 회귀하도록 유도한다.
실험에서는 1차원 코사인 함수와 UCI Air Quality 데이터셋을 사용했다. 코사인 실험에서는 T=600, T_tr=300 으로 링을 설정하고, 각 링에 단순 선형 회귀 모델(θ=
댓글 및 학술 토론
Loading comments...
의견 남기기