시계열 LLM을 지켜라: 에너지 예측을 위한 적대적 입력 탐지 플러그인
초록
저탄소 전력 시스템 운영에 핵심적인 시계열 대형언어모델(TS-LLM)은 적대적 예제 공격에 취약하다. 본 연구는 TS-LLM의 가변 길이 입력 처리 능력을 활용한 ‘ILID’라는 플러그인 탐지 프레임워크를 제안한다. 입력 시퀀스를 여러 개의 짧은 변형으로 샘플링하여 예측 결과의 일관성을 측정함으로써, 전체 길이에 최적화된 적대적 교란이 짧은 샘플에서는 효과를 발휘하지 못하는 원리를 이용해 공격을 탐지한다. TimeGPT, TimesFM, TimeLLM 모델과 여러 에너지 데이터셋에서의 실험을 통해 블랙박스 및 화이트박스 공격 환경에서도 강력한 탐지 성능을 입증했다.
상세 분석
본 논문이 해결하고자 하는 근본적인 문제는 에너지 예측과 같은 실시간 운영 시스템에 통합되고 있는 시계열 대형언어모델(TS-LLM)의 보안 취약점이다. TS-LLM은 제로샷 예측과 확장성으로 인해 인터넷 오브 에너지(IoE) 생태계에서 빠르게 핵심 요소로 자리잡고 있으나, 적대적 예제(Adversarial Examples)에 대한 취약성이 실제 배포를 방해한다. 기존 탐지 방법이 실패하는 이유는 두 가지다. 첫째, 적대적 교란은 전체 입력 시퀀스의 전역적 시간 의존성을 최적화하여 생성되므로, 국소적 분석만으로는 탐지가 어렵다. 둘째, TS-LLM은 고정된 입력 차원을 요구하는 전통적 모델과 달리 가변 길이 입력을 받아들이므로, 탐지 기준을 설정하기가 복잡해진다.
제안하는 해결책인 ‘ILID(Length Independence-based Detection)‘는 이러한 TS-LLM의 고유한 특성, 즉 가변 길이 입력 처리 능력을 방어 메커니즘으로 전환한 독창적인 접근법이다. 핵심 아이디어는 ‘샘플링 유도 발산(Sampling-Induced Divergence)‘이다. 검사할 입력 시퀀스(x)를 무작위로 여러 개의 짧은 하위 샘플(x_sub)로 분할한 후, 각각을 TS-LLM에 입력하여 예측(y_sub)을 얻는다. 정상 입력의 경우 하위 샘플링에도 불구하고 예측 결과가 서로 높은 유사성을 보인다. 반면, 적대적 입력은 전체 시퀀스에 맞춰 정교하게 설계된 교란이 각기 다른 구조를 가진 짧은 샘플에서는 그 효과가 일관되게 전이되지 않아, 예측 결과들이 서로 크게 달라지게 된다. 이 예측 간 유사성(또는 불일치)을 정량화하여 임계값과 비교함으로써 공격을 탐지한다.
기술적 강점은 다음과 같다. 1) 플러그인 가능성: TS-LLM의 내부를 수정하거나 재학습시킬 필요 없이, 입력-출력 파이프라인에 모듈로 삽입 가능하다. 이는 TimeGPT 같은 상용 API 기반 모델에 실용적이다. 2) 공격 사전 지식 불필요: 탐지 임계값은 순수한 정상 데이터만으로 설정되며, 특정 공격 기법에 대한 지식이나 적대적 예제 훈련 데이터를 요구하지 않는다. 3) 랜덤성에 기반한 견고성: 샘플링 과정의 무작위성이 탐지 프로세스에 내재된 불확실성을 도입하여, 공격자가 방어 메커니즘을 완전히 파악하고 역이용하는 적응형 공격(Adaptive Attack)을 어렵게 만든다. 실험에서는 FGSM, BIM 등의 그래디언트 기반 공격과 더불어 TS-LLM에 특화된 공격 기법에 대해서도 ILID의 효과성을 입증하였다. 이는 에너지 시스템과 같이 신뢰성과 보안이 최우선인 도메인에서 TS-LLM의 안전한 운용을 위한 실질적인 솔루션으로서의 가능성을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기