선형 트랜스포머와 VAR 모델의 통합 자기회귀 주의 메커니즘 정렬
초록
본 논문은 선형 어텐션 레이어가 동적 벡터 자기회귀(VAR) 구조와 동일함을 수학적으로 증명하고, 기존 다층 트랜스포머가 autoregressive 예측 목표와 구조적으로 불일치함을 지적한다. 입력‑출력 흐름과 MLP 배치를 재구성해 다층 선형 어텐션을 완전한 VAR 모델로 정렬하고, 이를 기반으로 해석 가능한 가중치를 제공하는 SAMoVAR 모델을 제안한다. 실험 결과 SAMoVAR가 최신 시계열 예측 모델 대비 정확도·해석성·효율성에서 우수함을 보여준다.
상세 분석
논문은 먼저 단일 선형 어텐션 레이어를 수식적으로 전개하여 (o_t = \sum_{i=1}^{t} v_i^\top q_t , k_i) 형태를 얻는다. 여기서 (k_i) 는 관측값, (v_i^\top q_t) 는 시간‑특정 스칼라 가중치이며, 이를 행렬 형태 (A_{t,i}=v_i^\top q_t) 로 표현하면 (o_t^\top = \sum_{i=1}^{t} A_{t,i} k_i^\top) 가 된다. 이는 각 시점 (t) 마다 동적으로 생성되는 가중치 행렬을 갖는 VAR 구조와 동일함을 의미한다. 기존 연구는 이 관계를 RNN 혹은 Fast‑Weight Programming 관점에서 해석했지만, 본 논문은 VAR의 lag‑based 해석 가능성에 초점을 맞춘다.
다층 트랜스포머에서는 각 블록이 residual‑shortcut과 layer‑norm을 통해 입력을 변형하고, 이후 어텐션이 변형된 표현에만 접근한다. 이 과정에서 (1) 예측 목표와 달리 각 레이어가 자체적인 “시프트”를 수행하도록 강제되며, (2) 원본 관측값 (k_i) 에 대한 직접적인 접근이 차단돼 VAR 가정인 “과거 관측 → 현재 예측” 흐름이 깨진다. 또한, 사전 정규화(pre‑norm) 구조는 관측값의 균등 가중치를 왜곡하고, 깊은 레이어일수록 표현이 원본에서 멀어져 가중치가 편향된다.
이를 해결하기 위해 저자들은 (i) MLP와 어텐션을 순차가 아닌 병렬 혹은 교차 배치하고, (ii) 어텐션 출력과 residual‑shortcut이 동일한 정규화와 동일한 입력 공간(키 (k) 공간)에서 이루어지도록 설계한다. 이렇게 재구성된 다층 선형 어텐션은 각 레이어가 독립적인 VAR 계층으로 동작하며, (l) 개의 레이어가 있을 경우 (l-1) 단계의 중간 노드를 거치는 “시간적 영향 경로”를 형성한다. 결과적으로 각 lag에 대한 가중치가 명시적으로 추출 가능해지고, 모델의 해석성이 크게 향상된다.
위 구조적 정렬을 바탕으로 제안된 SAMoVAR는 (1) 동적 (A_{t,i}=v_i^\top q_t) 가중치를 직접 학습하고, (2) 각 레이어의 출력에 identity (I) 를 더해 “키‑shortcut”을 구현한다. 이 설계는 기존 트랜스포머가 잃어버린 VAR 의 잔차‑시프트 관계를 복원하면서도 선형 어텐션의 (O(N)) 시간 복잡도를 유지한다. 실험에서는 여러 공개 시계열 데이터셋(ETTh, ECL, Traffic 등)에서 SOTA 모델인 Informer, Autoformer, N‑HiTS 등을 능가했으며, 특히 변수 간 상관관계를 시각화한 가중치 행렬이 직관적인 인과 관계를 드러내 해석 가능성을 입증했다.
요약하면, 논문은 선형 어텐션과 VAR 사이의 수학적 동등성을 명확히 하고, 기존 트랜스포머 설계가 시계열 예측에 비효율적인 이유를 구조적 관점에서 규명한다. 재구성된 아키텍처와 SAMoVAR는 이론적 정렬을 실용적 성능 향상으로 연결시켜, 효율적이면서도 해석 가능한 시계열 예측 모델의 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기