저신호‑대잡음 환경에서 변환기 모델의 시계열 예측 성능 벤치마크

저신호‑대잡음 환경에서 변환기 모델의 시계열 예측 성능 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 일일 관측치 몇 년치만으로 구성된 저신호‑대잡음 데이터에서 다변량 시계열 예측을 위해 변환기(Transformer) 구조를 체계적으로 평가한다. 합성 데이터에 다양한 시간·교차 종속 구조와 신호‑대잡음 비율을 적용해 부트스트랩 실험을 수행하고, 최적의 이론적 예측값과의 상관계수로 모델을 직접 비교한다. 두 방향(시간·교차) 어텐션을 교대로 적용하는 Two‑Way Attention Transformer가 Lasso, Boosting, MLP 등 전통적 베이스라인을 전반적으로 능가함을 보이며, 특히 잡음이 큰 상황에서 동적 희소화(sparse) 어텐션이 성능을 10‑20% 향상시킨다. 학습된 어텐션 패턴은 해석 가능하며, 고전 회귀의 희소성 정규화와 연관된 메커니즘을 제공한다.

상세 분석

이 연구는 시계열 예측을 “신호‑대잡음 비율(ρ)”이라는 단일 파라미터로 정량화하고, ρ가 2 %에서 50 %까지 변하는 여러 시나리오를 설계했다. 데이터 생성 단계에서는 X(j)ₜ,ₙ을 표준 정규분포에서 샘플링하고, 효과(effect) e에 따라 선형(Lin), 시간 이동(TS‑Shift), 교차 이동(CS‑Shift), 비선형 결합(Fea‑Nonlin), 복합 이동(TSCS‑Shift) 등 다섯 가지 구조를 조합했다. 각 효과는 ρₑ에 의해 가중되며, 최종 목표 변수 Yₜ,ₙ은 eYₜ,ₙ에 잡음 Zₜ,ₙ을 추가해 ρ와 직접 연결된 상관관계를 갖도록 설계되었다. 이렇게 하면 모델이 달성할 수 있는 이론적 상한을 명확히 알 수 있다.

베이스라인으로는 OLS(이론값 TheoC), 전역 Lasso, 전역 Boosting, 전역 MLP을 사용했으며, 이들은 모두 입력을 3차원(T_win × N × F)에서 1차원 벡터로 평탄화한다. 평탄화는 시간·교차 구조를 무시하므로 차원 저주와 과적합 위험이 크다. 반면 제안된 Transformer는 입력을 B × T_win × N × F 형태로 유지하고, 두 종류의 어텐션 블록(T‑block, C‑block)을 교대로 쌓아 시간축과 교차축을 각각 독립적으로 처리한다. 각 블록은 8개의 헤드와 256 차원의 피드포워드 레이어를 갖으며, 위치 임베딩을 통해 순서를 인코딩한다.

실험 결과는 효과별로 상세히 보고된다. 선형 효과에서는 Lasso가 최고 성능을 보였지만, Transformer는 ρ가 매우 낮은 경우(2 %)에도 Lasso와 비슷하거나 약간 앞섰다. TS‑Shift에서는 Lasso가 여전히 우세했으며, 이는 단순 시차가 존재할 때 선형 회귀가 충분히 정보를 포착하기 때문이다. CS‑Shift에서는 교차 어텐션이 강력히 작동해 Transformer가 베이스라인을 크게 앞섰다. 비선형 Fea‑Nonlin에서는 Lasso가 전혀 작동하지 않으며, Boosting과 MLP도 차원 폭발로 인해 성능이 급격히 떨어진다. 반면 Transformer는 비선형 결합을 효과적으로 학습해 ρ가 5 % 정도일 때도 0.3 ~ 0.4 수준의 상관을 달성한다. 복합 효과(TSCS‑Shift)에서는 MLP가 가장 좋은 결과를 보였는데, 이는 MLP가 구조적 가정을 전혀 두지 않아 모든 종류의 이동을 평균적으로 포착했기 때문이다.

가장 주목할 점은 동적 희소 어텐션이다. 학습 과정에서 어텐션 행렬을 일정 비율(초기 30 %)로 마스킹하고, 손실이 감소함에 따라 마스크 비율을 점진적으로 낮추는 방식으로 구현했다. 이 절차는 잡음이 큰(ρ ≤ 0.05) 상황에서 Transformer의 일반화 오차를 크게 감소시켰으며, 실험에서는 평균 12 % 정도의 상관 향상을 기록했다. 희소화된 어텐션은 실제로 중요한 시점·변수 쌍에 집중하는 경향을 보였으며, 시각화 결과는 고전 회귀의 L1 정규화와 유사한 가중치 패턴을 나타냈다.

통계적 관점에서 저자는 Appendix B에서 선형 OLS의 기대 상관식 C(ρ,γ)=ρ·√


댓글 및 학술 토론

Loading comments...

의견 남기기