데이터셋 기반 채널 마스크를 활용한 트랜스포머의 부분 채널 의존성 모델링
초록
본 논문은 다변량 시계열 모델링에서 채널 간 의존성을 보다 정교하게 반영하기 위해 “부분 채널 의존성(Partial Channel Dependence, PCD)” 개념을 제안한다. 데이터셋 전체에 대한 유사도 행렬과 데이터셋별 학습 가능한 파라미터(α, β)로 구성된 채널 마스크(Channel Mask, CM)를 정의하고, 이를 트랜스포머의 어텐션 행렬에 원소별 곱셈으로 적용한다. CM은 전역적인(데이터셋 수준) 채널 관계를 포착하고, 기존 어텐션은 입력 구간에 대한 국부적 관계를 학습한다. 다양한 백본(iTransformer, CARD, PRformer, MinusFormer 등)과 대규모 TSFM(UniTS)에 적용한 실험에서 평균 MSE 개선률 3~6%를 달성했으며, 특히 데이터셋마다 채널 의존성 정도가 다를 때 효과가 크게 나타났다.
상세 분석
본 연구는 다변량 시계열(MTS) 분석에서 채널 의존성(CD)의 두 축, 즉 모델이 학습하는 국부적 의존성(시간 구간별 어텐션)과 데이터셋 전체가 내포하는 전역적 의존성(채널 간 상관관계)을 동시에 고려한다는 점에서 혁신적이다. 기존 CD 기반 트랜스포머들은 어텐션 메커니즘을 통해 입력 시퀀스 내에서 채널 간 상호작용을 학습했지만, 데이터셋마다 채널 간 관계가 크게 달라질 수 있다는 점을 무시했다. 저자들은 이를 보완하기 위해 ‘채널 마스크(CM)’라는 개념을 도입한다. CM은 (1) 전체 데이터셋을 이용해 계산된 채널 간 유사도 행렬 R(절대값 상관계수)과 (2) 데이터셋별 학습 가능한 스케일 파라미터 α와 시프트 파라미터 β를 결합해 M = σ(α·\bar{R}+β) 형태로 정규화한다. 여기서 \bar{R}는 평균 정규화된 R이며, σ는 시그모이드 함수로 0~1 사이로 제한한다.
CM은 어텐션 행렬 A와 원소별 곱셈(A⊙M)으로 결합되어, 어텐션이 포착하는 시간‑채널 국부 의존성에 전역적인 채널 관계를 가중한다. 이때 CI(채널 독립)와 CD(채널 전부) 프레임워크는 각각 I_{C×C}와 1_{C×C} 행렬로 표현되며, PCD는 데이터셋 특성을 반영한 M으로 일반화된다. 저자들은 CM이 전역적인 ‘글로벌 의존성’을 제공함으로써, 입력 구간에 따라 변동하는 ‘로컬 의존성’과 상호 보완적인 역할을 수행한다는 점을 시각화(그림 5)와 정량적 실험을 통해 입증한다.
또한, ‘채널 의존성 비율(CD Ratio)’이라는 새로운 메트릭을 제안한다. 이는 CM의 비대각선 평균값을 이용해 0(CI)~1(CD) 사이의 스칼라값으로, 데이터셋마다 CD 필요성을 정량화한다. 실험 결과, CD Ratio가 높은 데이터셋일수록 CD 기반 모델(iTransformer 등)의 성능 향상이 크게 나타났으며, 이는 PCD가 데이터셋 특성을 반영한 맞춤형 의존성 조정에 효과적임을 시사한다.
실험에서는 13개의 공개 시계열 데이터셋(ETTh1/2, ETTm1/2, PEMS, Exchange, Weather 등)과 5가지 백본을 대상으로, 단일 태스크(예측, 분류, 보간, 이상 탐지)와 다중 태스크 TSFM(UniTS) 모두에 CM을 적용했다. 평균 MSE 개선률은 iTransformer에 6.3%, CARD에 5.4%, PRformer에 5.2%, MinusFormer에 5.9%로 보고되었으며, 특히 대규모 데이터셋에서 CD 전략이 CI 전략보다 월등히 우수함을 확인했다. 또한, Few‑shot 및 Zero‑shot 설정에서도 CM을 삽입한 UniTS가 기존 대비 1~5% 정도 정확도·F1 점수 향상을 보였다.
기술적 강점으로는 (1) 모델 구조에 최소한의 변경만으로 적용 가능(플러그인 방식), (2) 데이터셋 규모와 특성에 따라 α, β를 학습함으로써 다양한 도메인에 일반화 가능, (3) 전역·국부 의존성을 명시적으로 분리·조합함으로써 해석 가능성 향상 등을 들 수 있다. 한계점은 (i) 유사도 행렬을 상관계수 외 다른 메트릭(예: Mutual Information)으로 교체했을 때의 민감도 분석이 부족하고, (ii) α, β 파라미터가 데이터셋당 하나씩 필요해 메모리·학습 비용이 약간 증가한다는 점이다. 향후 연구에서는 비선형 변환을 통한 마스크 생성, 다중 스케일 마스크의 계층적 결합, 그리고 시계열 프리트레인 모델에 대한 자동화된 마스크 튜닝 기법 등을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기