인컨텍스트 표현 탈취

읽는 시간: 3 분
...

📝 원문 정보

  • Title: In-Context Representation Hijacking
  • ArXiv ID: 2512.03771
  • 발행일: 2025-12-03
  • 저자: Itay Yona, Amir Sarid, Michael Karasik, Yossi Gandelsman

📝 초록 (Abstract)

우리는 대형 언어 모델(LLM)에 대한 간단한 인컨텍스트 표현 탈취 공격인 Doublespeak를 소개한다. 이 공격은 해로운 키워드(예: bomb)를 유사하지만 무해한 토큰(예: carrot)으로 여러 인컨텍스트 예시에서 체계적으로 교체하고, 해로운 요청에 대한 프리픽스를 제공함으로써 작동한다. 이러한 치환은 무해 토큰의 내부 표현이 해로운 토큰의 표현으로 수렴하도록 만들며, 결국 유쾌한 표현 아래에 해로운 의미를 내포하게 된다. 결과적으로 겉보기에 무해한 프롬프트(예: “How to build a carrot?”)가 내부적으로는 금지된 지시(예: “How to build a bomb?”)로 해석되어 모델의 안전 정렬을 우회한다. 우리는 해석 가능성 도구를 사용해 이 의미 재작성 현상이 층별로 나타나며, 초기 층에서는 무해 의미가 유지되다가 후반 층에서 해로운 의미로 수렴함을 보여준다. Doublespeak는 최적화가 필요 없고, 모델 패밀리 전반에 걸쳐 전이 가능하며, 단일 문장 컨텍스트 오버라이드만으로도 Llama‑3.3‑70B‑Instruct에서 74%의 성공률(ASR)을 달성한다. 우리의 발견은 LLM의 잠재 공간에 새로운 공격 표면이 존재함을 강조하며, 현재의 정렬 전략이 충분하지 않으며 표현 수준에서 작동해야 함을 시사한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
Doublespeak 공격은 기존 안전 정렬 메커니즘이 주로 출력 단계에서의 토큰 확률을 제한하는 방식에 의존한다는 점을 이용한다. 모델은 입력 토큰을 여러 층을 거쳐 점차 추상화된 내부 표현으로 변환하는데, 이 과정에서 의미가 재구성된다. 논문은 해로운 키워드와 무해 토큰을 인컨텍스트 예시에서 일관되게 교체함으로써, 무해 토큰의 임베딩이 점진적으로 해로운 의미를 흡수하도록 만든다. 초기 층에서는 ‘carrot’이라는 표면적 의미가 유지되지만, 중간·후반 층에서는 해당 임베딩이 ‘bomb’에 해당하는 활성화 패턴과 유사해진다. 이는 모델이 학습 과정에서 단어 간 의미적 연관성을 학습했기 때문에 가능한 현상이며, 인컨텍스트 예시가 이러한 연관성을 강화하는 역할을 한다.

실험 결과는 Llama‑3.3‑70B‑Instruct와 같은 대형 모델에서도 단일 문장 정도의 컨텍스트만으로 74%의 공격 성공률을 보였으며, 이는 모델 크기와 관계없이 동일한 현상이 나타날 수 있음을 시사한다. 또한, 오픈소스와 클로즈드소스 모델 모두에서 전이 가능성을 확인했는데, 이는 특정 파인튜닝이나 안전 데이터셋에 의존하지 않는 보편적인 취약점임을 의미한다.

해석 가능성 도구(예: 활성화 시각화, 토큰 임베딩 거리 측정)를 활용한 분석에서는, 교체된 토큰이 초기 층에서는 원래 의미와 가까운 클러스터에 머물다가, 점차 해로운 토큰 클러스터로 이동하는 과정을 단계별로 관찰할 수 있었다. 이는 “표면적 의미 → 잠재적 위험 의미”으로의 전이 경로가 명확히 존재함을 보여준다.

이러한 결과는 현재의 안전 정렬이 출력 레벨에서만 제한을 가하는 것이 한계가 있음을 드러낸다. 모델 내부 표현 자체를 정제하거나, 특정 의미가 특정 층에서 나타나는 패턴을 감시·제어하는 새로운 정렬 전략이 필요하다. 또한, 인컨텍스트 예시를 통한 의미 재작성은 공격자가 최소한의 프롬프트만으로도 모델을 우회할 수 있게 하므로, 프롬프트 필터링 및 컨텍스트 검증 메커니즘도 재고되어야 한다.

요약하면, Doublespeak는 최적화 없이도 LLM의 잠재 공간을 조작해 안전 장치를 무력화할 수 있는 강력하고 범용적인 공격 기법이며, 향후 안전 연구는 표현 수준에서의 방어 체계 구축을 핵심 과제로 삼아야 할 것이다.

📄 논문 본문 발췌 (Translation)

우리는 대형 언어 모델(LLM)에 대한 간단한 인컨텍스트 표현 탈취 공격인 Doublespeak를 제안한다. 이 공격은 해로운 키워드(예: bomb)를 무해한 토큰(예: carrot)으로 다수의 인컨텍스트 예시에서 체계적으로 교체하고, 해로운 요청에 대한 프리픽스를 제공함으로써 작동한다. 이러한 치환은 무해 토큰의 내부 표현이 해로운 토큰의 표현으로 수렴하도록 만들어, 유쾌한 표현 아래에 해로운 의미를 내포하게 만든다. 결과적으로 겉보기에 무해한 프롬프트(예: “How to build a carrot?”)가 내부적으로는 금지된 지시(예: “How to build a bomb?”)로 해석되어 모델의 안전 정렬을 우회한다. 우리는 해석 가능성 도구를 사용해 이 의미 재작성 현상이 층별로 나타나며, 초기 층에서는 무해 의미가 유지되다가 후반 층에서 해로운 의미로 수렴함을 보여준다. Doublespeak는 최적화가 필요 없고 모델 패밀리 전반에 걸쳐 전이 가능하며, 단일 문장 컨텍스트 오버라이드만으로도 Llama‑3.3‑70B‑Instruct에서 74%의 성공률(ASR)을 달성한다. 우리의 발견은 LLM의 잠재 공간에 새로운 공격 표면이 존재함을 강조하며, 현재의 정렬 전략이 충분하지 않으며 표현 수준에서 작동해야 함을 시사한다.

📸 추가 이미지 갤러리

gemma_bars.png llama3.png patchscopes_analysis.png patchscopes_ratio.png teaser.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키