경량화 및 해석 가능한 트래픽 예측을 위한 혼합 그래프 기반 트랜스포머
초록
본 논문은 교통 시계열 데이터를 위해 공간‑시간 관계를 동시에 모델링하는 경량형 트랜스포머 구조를 제안한다. 무방향 그래프 𝔾ᵘ와 방향 그래프 𝔾ᵈ를 학습하고, 각각에 대해 새로운 ℓ₂·ℓ₁ 정규화 항(DGLR, DGTV)을 정의한다. ADMM 기반 최적화 알고리즘을 전개한 뒤 이를 신경망 층으로 언롤링하여 파라미터를 데이터‑드리븐 방식으로 학습한다. 그래프 학습 모듈을 주기적으로 삽입해 자기‑어텐션 역할을 수행함으로써, 기존 최첨단 모델 대비 7% 수준의 파라미터만으로 경쟁력 있는 예측 성능을 달성한다.
상세 분석
이 연구는 트랜스포머의 “블랙박스” 특성을 탈피하고, 수학적 해석 가능성을 보존하면서도 파라미터 효율성을 극대화하고자 한다. 핵심 아이디어는 공간적 상관관계를 포착하는 무방향 그래프 𝔾ᵘ와 시간적 순서를 반영하는 방향 그래프 𝔾ᵈ를 동시에 구축하는 것이다. 𝔾ᵘ에 대해서는 기존의 그래프 라플라시안 정규화(GLR)를 그대로 적용하지만, 𝔾ᵈ에 대해서는 두 종류의 새로운 변분 항을 도입한다. 첫 번째는 ℓ₂‑norm 기반의 Directed Graph Laplacian Regularizer(DGLR)로, 무방향 라플라시안을 대칭화한 Lᵈʳ = (Lᵈʳ)ᵀLᵈʳ을 사용해 그래프 신호의 변동을 제곱합 형태로 측정한다. 이때 상수 벡터는 완전 평탄 신호가 되므로, DGLR은 저주파 성분을 강조하는 저역통과와 동일한 효과를 가진다. 두 번째는 ℓ₁‑norm 기반의 Directed Graph Total Variation(DGTV)으로, 방향성에 따른 절대 차이를 합산해 비대칭적인 변동성을 포착한다. DGTV는 두 채널 필터뱅크 해석을 제공하며, DGLR과 결합될 경우 Elastic Net 형태의 정규화가 되어 잡음에 대한 강인성을 높인다.
최적화 문제는 관측 손실 ‖y‑Hx‖₂²와 세 개의 정규화 항(μᵤ·GLR, μ_{d,2}·DGLR, μ_{d,1}·DGTV)의 가중합으로 정의된다. 이 문제는 ℓ₂‑항은 부드럽고, ℓ₁‑항은 비부드러우므로 ADMM(Alternating Direction Method of Multipliers) 프레임워크를 적용한다. ADMM은 변수 x, 보조 변수 φ, 그리고 라그랑주 승수 γ를 교대로 업데이트하며, 각 단계는 선형 시스템 해석(Conjugate Gradient) 혹은 소프트‑쓰레싱(soft‑thresholding) 연산으로 구현된다. 특히, ℓ₂‑항을 더 세분화하기 위해 추가 보조 변수 zᵤ, z_d를 도입해 x와 각각의 라플라시안 항을 분리함으로써 연산 복잡도를 선형 시간 O(|E|) 수준으로 유지한다.
언롤링 단계에서는 ADMM의 각 반복을 신경망 레이어에 매핑한다. 가중치 μ와 ADMM 파라미터 ρ 등은 학습 가능한 텐서로 선언되어, 역전파를 통해 데이터에 최적화된다. 그래프 학습 모듈은 주기적으로 삽입되어, 현재 레이어의 출력으로부터 𝔾ᵘ와 𝔾ᵈ의 인접 행렬을 재추정한다. 이는 전통적인 자기‑어텐션이 키‑쿼리‑밸류 매트릭스를 학습하는 과정과 동일한 역할을 수행하지만, 그래프 라플라시안이라는 명시적 수학적 구조를 제공한다. 따라서 각 레이어는 “그래프 기반 어텐션”과 “ADMM 기반 복원”이라는 두 가지 의미론적 역할을 동시에 수행한다.
실험에서는 공개된 교통 데이터셋(예: METR‑LA, PEMS‑BAY)을 사용해 7.2% 파라미터 규모의 모델이 최신 트랜스포머 기반 PDFormer, STGCN 등과 비교해 MAE, RMSE, MAPE 지표에서 동등하거나 약간 우수한 성능을 보였다. 특히 파라미터 수와 메모리 사용량이 크게 감소함에도 불구하고, 학습 및 추론 속도는 경쟁 모델과 비슷하거나 더 빠른 것으로 보고되었다. Ablation 연구에서는 DGLR과 DGTV를 각각 제거했을 때 성능 저하가 관찰되어, 두 정규화 항이 상호 보완적임을 확인한다.
한계점으로는 그래프 학습 모듈이 아직 완전한 비선형 어텐션을 대체하지 못하고, 시간 창 W 의 크기에 따라 그래프 구조가 급격히 복잡해질 수 있다는 점을 들 수 있다. 또한, 현재 구현은 교통 시계열에 특화돼 있어, 다른 도메인(예: 기후, 전력)으로의 일반화 검증이 필요하다. 향후 연구에서는 다중 스케일 그래프와 동적 ADMM 파라미터 스케줄링을 도입해 더욱 유연한 모델링을 시도할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기