프롬프트 주입 탐지기 회피를 위한 적응형 접미사 공격
초록
본 논문은 LLM의 작업 전이(태스크 드리프트)를 탐지하기 위해 활성화 델타를 이용한 선형 프로브가 적대적 접미사에 매우 취약함을 보이고, 다중 프로브를 동시에 속이는 보편적 접미사를 생성한다. 실험 결과 Phi‑3 3.8B와 Llama‑3 8B에서 90% 이상 성공률을 기록했으며, 다중 접미사를 무작위로 결합한 방어법이 효과적임을 제시한다.
상세 분석
이 연구는 최근 주목받는 “활성화 델타 기반 태스크 드리프트 탐지” 방법을 공격 대상으로 삼는다. Abdelnabi 등(2024)이 제안한 바와 같이, LLM의 여러 은닉층에서 입력 전후 활성값 차이를 추출해 로지스틱 회귀(선형 프로브)로 학습하면, 보조 명령이 삽입된 입력을 높은 정확도로 구분할 수 있다고 주장했다. 그러나 이러한 탐지기는 입력 자체가 변형되지 않은 경우에만 유효하다는 전제가 있다. 논문은 이 전제를 깨뜨리기 위해, GCG(Greedy Coordinate Gradient) 알고리즘을 활용해 “접미사” 형태의 토큰 시퀀스를 최적화한다. 핵심 아이디어는 접미사가 LLM 내부 활성화를 변형시켜, 각 층에 부착된 선형 프로브가 “정상”(드리프트 없음) 클래스로 오분류하도록 만드는 것이다.
공격 설계는 두 단계로 이루어진다. 첫째, 각 프로브의 손실 함수(교차 엔트로피)를 모두 합산하고, 해당 손실에 대한 활성화의 그래디언트를 역전파한다. 여기에는 (i) 다음 층으로부터 전파된 그래디언트와 (ii) 해당 층에 연결된 프로브에서 발생한 그래디언트가 포함된다. 둘째, 이 누적된 그래디언트를 토큰 임베딩에 적용해 가장 큰 손실 감소를 가져오는 토큰 교체를 반복한다. 이렇게 하면 접미사가 여러 층을 동시에 “속이는” 방향으로 조정된다.
실험에서는 Phi‑3 3.8B와 Llama‑3 8B 두 모델에 대해 5개의 프로브(층 0, 7, 15, 23, 31)를 사용했다. 각 모델의 원본 프로브는 깨끗한 입력에 대해 7093% 정도의 정확도를 보였으며, 특히 깊은 층일수록 9799% 수준으로 높은 탐지 성능을 보였다. 그러나 최적화된 접미사를 한 번만 삽입하면, Phi‑3에서는 93.91% (전체 5프로브 동시 회피), 99.79% (다수 프로브 회피) 의 성공률을, Llama‑3에서는 99.63%~99.99%에 달하는 거의 완벽한 회피율을 기록했다. 이는 동일 접미사가 다양한 프롬프트와 여러 층에 걸쳐 일반화될 수 있음을 의미한다.
방어 측면에서는 두 가지 전략을 제안한다. 첫 번째는 PGD 기반 적대적 훈련으로, 프로브를 훈련할 때 교란된 활성화(포함된 접미사)를 함께 사용한다. 그러나 접미사가 훈련 데이터에 없으면 여전히 취약했다. 두 번째는 “다중 접미사 학습”이다. 여러 서로 다른 초기 접미사로 GCG 공격을 수행해 다양한 접미사 집합을 만든 뒤, 학습 단계에서 각 프롬프트에 무작위로 하나를 붙여 활성화를 수집한다. 이렇게 얻은 활성화와 기존의 깨끗·오염 데이터로 프로브를 재학습하면, 새로운 접미사에 대한 일반화 방어가 가능해졌다. 실험 결과, 이 방어는 테스트 단계에서 보지 못한 접미사에 대해서도 95% 이상 정확도로 탐지를 유지했다.
전체적으로 이 논문은 LLM 보안에서 “탐지기 자체가 공격 표적이 될 수 있다”는 중요한 교훈을 제공한다. 활성화 델타 기반 경량 탐지는 구현이 간단하고 비용 효율적이지만, 적대적 접미사에 의해 쉽게 무력화될 수 있다. 따라서 향후 연구는 (1) 탐지 모델을 비선형화하거나 앙상블화, (2) 입력 전처리 단계에서 토큰 수준의 무결성 검증, (3) 메타-학습 기반 적응형 방어 등 보다 강건한 메커니즘을 모색해야 할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기