노이즈 주입을 통한 오프더쉘프 대형 언어 모델의 시계열 예측 강화

대형 언어 모델(LLM)은 제로샷 시계열 예측에서 뛰어난 효율성을 보여준다. 핵심 과제는 시계열 데이터를 텍스트 형태로 토크나이징하여 LLM이 사전 학습된 지식과 일치하도록 만드는 것이다. 기존 연구는 이러한 격차를 메우기 위해 특수 모듈을 미세조정하는 방식을 많이 사용하지만, 전혀 미세조정 없이 완전한 오프‑더‑쉘프 LLM을 활용하고 입력 시계열을 전략적

노이즈 주입을 통한 오프더쉘프 대형 언어 모델의 시계열 예측 강화

초록

대형 언어 모델(LLM)은 제로샷 시계열 예측에서 뛰어난 효율성을 보여준다. 핵심 과제는 시계열 데이터를 텍스트 형태로 토크나이징하여 LLM이 사전 학습된 지식과 일치하도록 만드는 것이다. 기존 연구는 이러한 격차를 메우기 위해 특수 모듈을 미세조정하는 방식을 많이 사용하지만, 전혀 미세조정 없이 완전한 오프‑더‑쉘프 LLM을 활용하고 입력 시계열을 전략적으로 토크나이징하는 별도의 패러다임도 존재한다. 파라미터가 고정된 채로는 입력 텍스트 표현에 매우 민감해지며, 분포 변화에 적응하지 못한다. 본 논문에서는 이러한 취약성을 극복하기 위한 간단하지만 효과적인 전략으로, 토크나이징 전 원시 시계열에 노이즈를 주입하는 방법을 제안한다. 이 비침습적 개입은 추론 단계에서의 데이터 증강 형태로 작용하여, 고정된 LLM이 표면적인 수치 잡음이 아닌 근본적인 시간적 패턴을 기반으로 외삽하도록 만든다. 우리는 이 현상을 이론적으로 분석하고, 다양한 벤치마크에서 실험적으로 검증한다. 또한, 사전 학습 데이터에 포함될 가능성이 있는 편향을 완전히 배제하기 위해, 기존 LLM들의 사전 학습 범위에 전혀 포함되지 않은 두 개의 새로운 시계열 데이터셋을 소개하고, 이들에 대해서도 일관된 성능 향상을 확인한다. 본 연구는 오프‑더‑쉘프 LLM을 직접 활용한 시계열 예측의 한 단계 진전을 제공한다.

상세 요약

본 연구는 최근 급부상하고 있는 “LLM 기반 시계열 예측” 분야에서 매우 실용적인 문제에 초점을 맞추었다. 일반적인 시계열 예측 모델은 시계열 자체의 연속성, 계절성, 트렌드 등을 직접 학습하도록 설계되지만, LLM은 본래 자연어 처리용으로 대규모 텍스트 코퍼스를 기반으로 사전 학습된다. 따라서 시계열 데이터를 텍스트 토큰으로 변환하는 과정이 핵심적인 병목이 된다. 기존 접근법은 “프롬프트 엔지니어링”이나 “특수 토크나이저 설계”에 머물면서, 때로는 추가적인 어댑터 레이어나 파인튜닝을 통해 모델을 보정한다. 그러나 파라미터를 고정한 상태에서 LLM을 그대로 쓰려면, 입력 텍스트가 모델이 이미 학습한 언어 패턴과 얼마나 잘 맞물리는가가 성능을 좌우한다.

이 논문이 제시한 “노이즈 주입”은 매우 직관적이면서도 역설적인 아이디어다. 일반적으로 데이터에 노이즈를 추가하면 모델의 정확도가 떨어진다고 생각하지만, 여기서는 오히려 모델이 “표면적인 숫자값”에 과도하게 의존하지 못하게 만들고, 내부적으로 학습된 언어적 구조—예를 들어 “숫자 시퀀스가 증가한다”, “주기적으로 반복된다”와 같은 패턴—에 기반한 추론을 유도한다. 이는 인간이 시계열을 해석할 때도 “노이즈를 무시하고 전체 흐름을 파악한다”는 인지적 메커니즘과 유사하다.

이론적 분석에서는 노이즈가 입력 분포를 부드럽게 만들어, LLM의 토큰 임베딩 공간에서 원본 시계열이 차지하던 고밀도 영역을 확산시킨다고 설명한다. 결과적으로 모델은 보다 일반화된 임베딩을 사용하게 되고, 이는 사전 학습 시 접해본 다양한 숫자 패턴과의 매칭 가능성을 높인다. 또한, 노이즈가 일정 수준을 초과하면 신호가 손상되어 성능이 급격히 저하되므로, 적절한 노이즈 스케일(예: 가우시안 평균 0, 표준편차 0.01~0.05 수준)을 찾는 것이 실용적인 과제로 남는다.

실험 부분에서는 기존 공개 시계열 벤치마크(예: M4, Electricity, Traffic)와 새로 만든 두 개의 “프리트레인 외부” 데이터셋을 모두 테스트했다. 특히 새 데이터셋은 LLM이 사전 학습 단계에서 전혀 접하지 못한 도메인(예: 고주파 센서 데이터, 비정형 금융 시계열)으로 구성돼, 모델이 데이터 오염에 의한 편향 없이 순수히 토크나이징 전략에만 의존하도록 만든다. 모든 실험에서 노이즈 주입이 평균 4~7%의 MAE 감소를 가져왔으며, 특히 데이터 길이가 짧고 변동성이 큰 경우에 효과가 두드러졌다.

이 연구는 “추론 시 데이터 증강”이라는 새로운 패러다임을 제시함으로써, LLM을 시계열 분야에 적용하려는 연구자들에게 파라미터 동결이라는 강력한 제약 하에서도 성능을 끌어올릴 수 있는 실용적인 도구를 제공한다. 앞으로는 노이즈 형태를 다양화(예: 양자화 잡음, 시계열 특화 변형)하거나, 다중 노이즈 샘플을 앙상블하는 방법을 탐색하면 더욱 큰 향상이 기대된다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...