LLM 탈옥 방어를 위한 인증된 의미 스무딩 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 탈옥 공격에 대해 확률적 보장을 제공하는 새로운 방어 체계를 제안한다. 구조적 프롬프트와 가변적인 페이로드를 구분해 토큰 수준에서 무작위 마스킹을 수행하는 “Certified Semantic Smoothing”(CSS)과, 희소한 컨텍스트에서도 성능 저하를 막는 “Noise‑Augmented Alignment Tuning”(NAAT)을 결합한다. 하이퍼지오메트릭 분포를 이용해 ℓ₀‑노름 공격에 대한 인증 반경을 엄격히 계산하고, Llama‑3에 적용해 공격 성공률을 84.2%→1.2%로 낮추면서 정상 사용 시 유틸리티는 94.1%를 유지한다.

상세 분석

이 연구는 기존 이미지 분야에서 성공한 랜덤 스무딩(Randomized Smoothing) 개념을 자연어 처리, 특히 LLM에 적용하기 위해 두 가지 핵심 혁신을 도입한다. 첫 번째는 입력을 **구조적 토큰(I_struct)**과 **의미적 토큰(I_sem)**으로 명확히 구분한 뒤, 구조적 토큰은 절대 삭제하지 않고 의미적 토큰만 무작위로 선택해 마스킹하는 Stratified Randomized Ablation이다. 이 방식은 토큰 삭제가 포지셔널 임베딩을 깨뜨리는 문제를 회피하고, 프롬프트 형식 유지라는 실용적 제약을 만족한다.

두 번째 혁신은 **Noise‑Augmented Alignment Tuning (NAAT)**이다. 기존 LLM은 밀집된 연속 텍스트에 최적화돼 희소한 입력(예: 50% 토큰만 남긴 경우)에서 불안정해지는 것이 알려져 있다. NAAT는 훈련 단계에서 위의 무작위 마스킹을 그대로 적용한 데이터를 사용해 모델을 재학습한다. 즉, 모델이 “희소한 컨텍스트에서도 의미를 복원”하도록 학습함으로써, 스무딩 과정에서 발생하는 정보 손실을 보완한다. 결과적으로 p_A(정상 클래스 확률)가 크게 상승해 인증 반경 R이 실질적으로 확대된다.

이론적 측면에서는 ℓ₀‑노름 공격을 토큰 교체·삽입·삭제의 개수 r로 모델링하고, 무작위 샘플링 과정에서 공격 토큰이 선택될 확률을 하이퍼지오메트릭 분포 H(N, r, k)로 정확히 계산한다. 인증 반경 R은 다음 부등식으로 정의된다.

p_A − p_B > 1 − 2·P(Z=0; N, R, k)

여기서 Z는 샘플링된 k개의 토큰 중 공격 토큰이 전혀 포함되지 않을 확률을 의미한다. 이 식은 샘플 크기 k와 공격 허용량 R 사이의 트레이드오프를 명시적으로 보여준다. k가 클수록 모델 정확도(p_A)는 상승하지만, P(Z=0) 가 급격히 감소해 인증 반경이 축소된다. 반대로 k를 작게 잡으면 인증 반경은 커지지만 모델 성능이 떨어진다. NAAT는 이 균형점을 실험적으로 찾아, k≈0.5·|I_sem|에서 높은 p_A와 충분한 R을 동시에 달성한다.

실험에서는 Llama‑3 기반 모델에 CSS+NAAT를 적용하고, GCG, AutoDAN 등 최신 그라디언트 기반 탈옥 공격을 10가지 시나리오에서 평가했다. 공격 성공률(ASR)은 기존 베이스라인 84.2%에서 1.2%로 감소했으며, 정상 프롬프트에 대한 응답 정확도는 94.1%로 유지되었다. 문자 수준 랜덤 스무딩(예: SmoothLLM)과 비교했을 때, 유틸리티는 74.3% 수준에 머물렀던 반면, 제안 방법은 20% 이상 높은 성능을 보였다. 또한, 인증 반경 R이 평균 7~9 토큰(ℓ₀) 수준으로 측정돼, 실질적인 공격 비용을 크게 높였다.

이 논문의 주요 기여는 (1) LLM 특유의 구조적 제약을 반영한 Stratified Randomized Ablation 설계, (2) 희소 컨텍스트에서도 강건한 성능을 보장하는 NAAT 튜닝 프로토콜, (3) 하이퍼지오메트릭 기반의 ℓ₀‑norm 인증 반경 이론 정식화, (4) 실험을 통한 실제 인증 가능성 입증이다. 특히, “구조‑의미 분리”와 “스무딩‑정렬 동시 학습”이라는 두 축을 결합함으로써, 기존의 경험적 방어가 갖는 ‘고양이와 쥐’ 게임을 수학적으로 종결시키는 방향을 제시한다.

LLM 탈옥 방어를 위한 인증된 의미 스무딩 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기