시간 지연 트랜스포머로 저차원 동역학 모델링
초록
본 논문은 단일 레이어·단일 헤드 구조의 시간 지연 트랜스포머(TD‑TF)를 제안한다. TD‑TF는 시간 지연 동적 모드 분해(TD‑DMD)를 비선형 일반화한 형태로, 선형 연산 복잡도와 적은 파라미터 수를 유지하면서 비선형·혼돈 시스템에서도 장기 예측 정확도를 크게 향상시킨다. 합성 신호, 비정상 공기역학, Lorenz ’63, 반응‑확산 모델 등 네 가지 사례 연구를 통해 기존 선형 방법을 능가함을 입증한다.
상세 분석
TD‑TF는 “시간 지연 임베딩 → 피드포워드 변환 → 단일 쿼리 셀프‑어텐션 → 출력”이라는 4단계 파이프라인으로 구성된다. 입력 시퀀스는 각 스냅샷에 정규화된 시간 인덱스를 추가해 위치 정보를 명시적으로 부여하고, 동일한 피드포워드 네트워크(두 개의 완전 연결층과 비선형 활성화)로 각 지연 상태를 비선형 특징 공간으로 매핑한다. 이후 마지막(가장 최신) 상태를 쿼리로, 전체 지연 상태를 키·밸류로 사용해 스칼라 어텐션 가중치를 계산하고, 가중합을 통해 다음 상태를 예측한다. 이 구조는 TD‑DMD의 선형 결합 (w_{k+1}=A_0 w_k + A_1 w_{k-1}+…+A_{n-1} w_{k-n+1}) 식에 비선형 피드포워드 변환 (\phi(\cdot)) 를 삽입한 형태와 동일시할 수 있다. 즉, TD‑TF는 (\hat w_{k+1}= \sum_{i=0}^{n-1}\alpha_i,\phi(w_{k-i})) 와 같은 비선형 자동회귀 모델이며, 어텐션 가중치 (\alpha_i) 는 학습 가능한 쿼리·키 매트릭스에 의해 데이터‑드리븐하게 결정된다.
이 설계는 두 가지 중요한 이점을 제공한다. 첫째, 어텐션 연산을 “마지막 상태 ↔ 전체 지연 상태”만 수행하도록 제한함으로써 복잡도가 (O(L)) (시퀀스 길이 L)으로 선형화되고, 파라미터 수는 피드포워드와 어텐션 매트릭스 각각 하나씩으로 매우 작다. 둘째, 비선형 피드포워드와 가변 어텐션 가중치를 통해 선형 TD‑DMD가 포착하지 못하는 다중 스케일·비선형 상호작용을 학습한다.
실험에서는 (i) 단일 주파수 사인파(선형 해 존재)에서 TD‑TF가 TD‑DMD와 동일한 정확도를 보이며, (ii) 고차원 유동 데이터(에어포일의 풍동 응답)에서는 선형 모델과 거의 동등한 성능을 유지하면서 파라미터 효율성을 확보한다. 특히 (iii) Lorenz ’63과 (iv) 2‑D 반응‑확산 PDE(저차원 모드 투영)와 같은 강혼돈·강비선형 사례에서는 TD‑TF가 장기 궤적 재구성에서 TD‑DMD를 크게 앞서며, 전통적인 딥러닝 기반 트랜스포머(다중 레이어·다중 헤드)와 비교해도 비슷하거나 더 나은 정확도를 보이면서 학습·추론 비용이 현저히 낮다.
한계점으로는(1) 현재 구현이 단일 헤드·단일 레이어에 국한되어 있어 복잡한 공간‑시간 상관관계를 완전히 포착하기엔 제한적일 수 있다. (2) 시간 지연 길이 n 선택이 모델 성능에 민감하며, 자동화된 최적화 방법이 아직 제시되지 않았다. (3) 물리 보존 법칙(에너지, 질량 등)을 직접 강제하는 메커니즘이 없으므로, 물리‑인포메드 학습과 결합할 여지가 있다. 향후 연구에서는 다중 헤드·다중 레이어 확장, 물리 제약 통합, 그리고 적응형 지연 길이 선택을 통한 일반화 능력 강화가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기