밀리초 수준 5G 네트워크 데이터셋으로 시계열 파운데이션 모델 고주파 한계 돌파
본 논문은 5G 무선망에서 수집한 밀리초 해상도 트래픽·무선 상태 데이터를 공개하고, 이를 이용해 기존 저주파 중심 시계열 파운데이션 모델(TSFMs)의 성능을 벤치마크한다. 전통적인 머신러닝 모델은 비교적 안정적인 예측을 보이는 반면, 최신 TSFM들은 제로샷·미세조정 모두에서 높은 오류를 나타낸다. 데이터는 불안정한 트렌드, 약한 계절성, 급격한 스파이크와 헤비테일 분포 등 고주파 특성을 지니며, 이러한 특성이 모델 설계와 사전학습에 새로운…
저자: Subina Khanal, Seshu Tirupathi, Merim Dzaferagic
본 논문은 현재 시계열 파운데이션 모델(TSFMs)이 주로 초·분·시간·연 단위의 저주파 데이터에 의존하고 있어, 밀리초 수준의 고주파 데이터를 효과적으로 다루지 못한다는 문제점을 제기한다. 이를 해결하고자 저자들은 5G 무선망에서 실시간으로 수집한 밀리초 해상도 네트워크 성능 측정값을 포함하는 새로운 데이터셋을 공개한다. 데이터는 오픈러디오 액세스 네트워크(O‑RAN) 테스트베드에서 다양한 이동성(정지, 보행, 차량, 열차)과 트래픽 유형(웹, VoIP, IoT, 비디오 스트리밍, DDoS 등)을 시뮬레이션하여 얻었으며, CQI, MCS, SINR, RSSI, 버퍼 점유율, 패킷 전송·손실 등 10여 개의 물리·MAC 레이어 지표를 포함한다. 각 UE는 고유 식별자를 가지고 있어, 동일 UE에 대한 연속적인 시계열을 추적할 수 있다.
데이터 특성 분석에서는 STL(Seasonal‑Trend decomposition using Loess) 결과가 트렌드가 불안정하고 단계적 변동을 보이며, 계절성은 짧은 주기(수십 밀리초) 수준에 국한되고, 잔차는 급격한 스파이크와 헤비테일을 포함함을 보여준다. 롤링 평균·표준편차가 시간에 따라 크게 변동하는 것을 통해 비정상성(heteroskedasticity)과 시계열의 통계적 특성이 시간에 따라 달라짐을 입증한다. 자기상관 분석은 긴 지연에서도 완만히 감소하는 강한 지속성을 보여, 급격한 변동이 클러스터링되는 경향을 나타낸다. Q‑Q 플롯과 SNR 분석을 통해 잔차가 정규분포에서 크게 벗어나며, 짧은 주기(2~20)에서는 신호‑대‑잡음 비율이 높지만 장기 주기에서는 거의 0에 가까워 장기적인 계절성은 사실상 존재하지 않음을 확인한다. 이러한 특성은 기존 저주파 데이터와는 근본적으로 다른 통계적 구조를 가지고 있음을 의미한다.
벤치마크 실험에서는 전통적인 트리 기반 앙상블(Random Forest, XGBoost, Adaptive Random Forest)과 온라인 선형 회귀, 나이브 포캐스트를 포함한 6개의 베이스라인 모델과 최신 TSFM(Chronos, TinyTimeMixer, Moirai 등)의 세 가지 변형을 비교하였다. 실험은 단변량(다운링 비트레이트)과 다변량(4개 입력 피처) 두 가지 설정으로 진행되었으며, 예측 horizon은 1스텝(100 ms)부터 96스텝(9.6 s)까지 다양하게 설정하였다. 결과는 전통 모델이 평균 절대오차(MAE)와 평균 제곱근오차(RMSE)에서 일관되게 우수한 반면, TSFM은 제로샷 상황에서 크게 오버슈팅하거나 언더슈팅하고, 미세조정 후에도 학습 안정성이 떨어져 과적합 현상이 빈번히 발생함을 보여준다. 특히, 고주파 데이터의 급격한 변동과 헤비테일 특성은 기존 TSFM이 설계된 장기·중기 예측에 최적화된 어텐션 메커니즘과 사전학습 목표와 불일치한다는 점을 시사한다.
이러한 결과는 고주파 시계열이 요구하는 모델 특성이 기존 저주파 중심 TSFM과는 근본적으로 다름을 의미한다. 구체적으로는 (1) 초단위(밀리초) 수준의 시계열에서 빠른 업데이트와 낮은 레이턴시를 지원하는 온라인 학습 구조, (2) 비정상성과 헤비테일을 효과적으로 포착할 수 있는 강건한 손실 함수 및 정규화 기법, (3) 멀티스케일 어텐션 혹은 하이브리드 구조(Transformer + CNN/RCNN) 등을 도입해야 함을 암시한다. 또한, 데이터 자체가 다양한 무선 환경과 공격 시나리오를 포함하고 있어, 보안·QoS 예측 등 실시간 네트워크 관리 응용에도 직접 활용 가능하다.
결론적으로, 저자들은 고주파 밀리초 해상도 네트워크 데이터셋을 공개함으로써 TSFM 연구에 존재하던 데이터 격차를 메우고, 향후 사전학습 데이터 풀에 이러한 고주파 시계열을 포함시킬 경우 모델의 일반화 능력과 실시간 적용 가능성이 크게 향상될 것이라는 중요한 시사점을 제공한다. 또한, 본 데이터셋은 무선망 분야뿐 아니라 다른 고주파 센서 데이터(예: 금융 고빈도 거래, 산업 IoT)에도 확장 가능성이 있어, 차세대 시계열 파운데이션 모델 개발에 핵심적인 벤치마크가 될 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기