에코 상태 변환기 유한 메모리 어텐션

에코 상태 변환기 유한 메모리 어텐션
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

에코 상태 변환기(EST)는 트랜스포머의 어텐션을 입력 토큰이 아니라 고정된 수의 작업 기억(Reservoir) 유닛에 적용함으로써 시퀀스 길이에 따라 증가하는 2차 복잡도를 선형 복잡도로 낮춘다. 적응형 누수율과 학습된 스펙트럼 반경을 갖는 여러 병렬 Reservoir를 사용해 다양한 시간 스케일을 포착하고, 이전 상태 어텐션과 자체 어텐션을 결합해 메모리 간 상호작용을 학습한다. Time Series Library 69개 태스크에서 분류와 이상 탐지에서 최고 성능을 기록했으며, 예측 태스크에서도 경쟁력을 보였다.

상세 분석

EST는 기존 트랜스포머가 입력 시퀀스 전체에 대해 매 단계마다 어텐션을 수행해 O(N²) 복잡도를 초래하는 문제를 근본적으로 재구성한다. 핵심 아이디어는 ‘작업 기억 블록(Working Memory Block)’을 도입해, 입력 시점 t에서 고정된 M개의 메모리 유닛을 생성하고, 각 유닛이 자체적인 상태 sₜ⁽ᵐ⁾를 유지하도록 하는 것이다. 이 메모리 유닛은 Echo State Network(ESN)의 원리를 차용한 랜덤 재귀 네트워크로, 가중치 W_in, W_res는 고정하고 출력 가중치 W_out만 학습한다. 중요한 점은 각 유닛마다 적응형 누수율 αₜᵐ을 동적으로 계산한다는 점이다. α는 Softmax를 통해 유닛별 스코어를 정규화한 뒤 온도 파라미터 τ와 곱해져 0~1 사이 값을 갖게 되며, 이는 과거 상태 보존 정도를 조절한다. 낮은 α는 오래된 정보를 유지하게 하고, 높은 α는 새로운 입력을 빠르게 반영한다. 이렇게 하면 서로 다른 시간 스케일을 가진 여러 유닛이 동시에 존재해, 단일 모델이 짧은 변동부터 장기 추세까지 포괄적으로 학습할 수 있다.

입력 단계에서는 원시 시계열 xₜ를 임베딩 레이어를 통해 D차원 벡터 eₜ로 변환한다. ‘이전 상태 어텐션(Previous State Attention)’ 블록에서는 현재 임베딩 eₜ를 Q로, 이전 메모리 상태 sₜ₋₁을 K와 V로 변환해 각 유닛마다 개별적인 (Q, K, V) 삼중항을 만든다. 이를 통해 유닛은 자신에게 가장 관련 있는 과거 정보를 선택적으로 취득한다. 어텐션 결과 a_psa는 RMSNorm과 잔차 연결을 거쳐 uₜ를 생성한다.

작업 기억 블록에서는 uₜ를 입력으로 받아 각 유닛의 내부 상태 hₜ⁽ᵐ⁾를 업데이트한다. 여기서 tanh 활성화와 스파스 연결 W_in, W_res를 사용해 비선형 동역학을 구현하고, 앞서 계산된 αₜᵐ와 혼합해 최종 상태 hₜ⁽ᵐ⁾를 얻는다. 이후 W_out을 통해 모델 차원 D로 투사해 sₜ를 만든다.

다음으로 ‘자체 어텐션(Self‑Attention)’ 블록이 sₜ를 토큰처럼 취급해 유닛 간 상호작용을 모델링한다. Q_sa, K_sa, V_sa를 선형 변환 후 표준 스케일드 점곱 어텐션을 수행하고, RMSNorm과 잔차 연결을 적용해 vₜ를 얻는다. vₜ는 모든 유닛의 출력을 연결(concatenation)하고, 차원 축소 레이어 W_reduce를 거쳐 zₜ를 만든다. 이어지는 Feed‑Forward 블록은 GELU 활성화와 두 개의 선형 레이어로 구성돼 비선형 변환을 제공하고, 최종 출력 yₜ를 RMSNorm을 통해 정규화한다.

출력 블록에서는 태스크에 따라 전체 시퀀스 Y_seq 혹은 현재 시점 Yₜ에 선형 투사와 바이어스를 적용해 최종 예측 ˆY를 산출한다.

실험에서는 Time Series Library(69개 태스크, 5개 카테고리)를 사용해 EST를 기존 최첨단 모델들과 비교했다. 분류와 이상 탐지에서는 각각 74.08% 정확도와 85.25% F1 점수로 1위를 차지했으며, 단기 예측에서도 최고 수준의 성능을 보였다. 장기 예측에서는 MSE 기준으로 기존 모델에 비해 다소 뒤처졌지만, 전체적인 경쟁력은 유지되었다. 또한 FLOPs 분석에서 EST는 메모리 유닛 수 M에만 의존하는 선형 복잡도를 보여, 시퀀스 길이가 늘어나도 계산 비용이 급증하지 않는다.

핵심 기여는 (1) 트랜스포머 어텐션을 고정된 Reservoir 기반 메모리 유닛에 적용해 복잡도 감소, (2) 적응형 누수율을 통한 동적 시간 스케일 조절, (3) 이전 상태 어텐션과 자체 어텐션을 결합해 메모리와 입력 사이의 양방향 상호작용 구현, (4) 다양한 시계열 태스크에서 SOTA 수준의 성능 입증이다. 이러한 설계는 뇌의 작업 기억 메커니즘을 연상시키면서도 딥러닝 모델의 효율성을 크게 향상시킨다.


댓글 및 학술 토론

Loading comments...

의견 남기기