거부 인식 임베딩 최적화와 통합 디코딩을 통한 LLM 탈옥 프레임워크 RAID

거부 인식 임베딩 최적화와 통합 디코딩을 통한 LLM 탈옥 프레임워크 RAID
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
RAID는 토큰을 연속 임베딩으로 완화하고, 거부(Refusal) 방향을 멀리하도록 삼중항 손실을 적용하며, MMD 기반 일관성 제약을 넣은 뒤, 임베딩 친화도와 모델 확률을 동시에 고려하는 비평가‑가이드 디코딩으로 자연스러운 공격 접미사를 생성한다. 실험 결과, 기존 백·화이트 박스 탈옥 기법보다 성공률·쿼리 수·연산 비용 모두 우수함을 보인다.

**

상세 분석

**
RAID는 기존 탈옥 기법이 “거부 영역”에 빠져 비자연적이거나 탐지하기 쉬운 토큰을 생성한다는 문제를 직접 해결한다. 핵심은 (1) 토큰을 고정된 임베딩 대신 연속 벡터 Z 로 풀어 최적화 공간을 확대하고, (2) “거부 방향” d 를 사전 정의된 거부 템플릿과 유해·무해 문장의 평균 활성화를 통해 추정한 뒤, 삼중항 손실 L_triplet = max(‖a‑p‖₂‑‖a‑r‖₂+margin,0) 으로 현재 앵커 a 를 거부 평균 r 로부터 멀리, 동시에 거부 성분을 제거한 양성 p 로 끌어당긴다. 여기서 p = a‑(dᵀa)d 는 거부 성분을 제로화한 벡터이며, 이는 “거부를 회피한” 상태를 명시적으로 표현한다.

또한, 일관성 유지 차원에서 최대 평균 차이(MMD) 기반 코히어런스 손실 L_coh 을 도입해 임베딩 시퀀스가 의미적으로 중복되지 않고 흐름을 유지하도록 한다. 최종 목적 함수는
L_total = L_adv + λ₁L_triplet + λ₂L_coh,
여기서 L_adv 는 유해 응답 확률을 최대화하는 로그‑우도 손실이다.

최적화 후, 비평가 C (예: 별도 안전성 분류기)와 언어 모델 확률 P_fθ 을 가중합한 스코어 S(token) = α·cos(emb(token),Z) + β·log P_fθ(token|context) 를 사용해 토큰을 복원한다. 이 과정은 임베딩 친화도와 자연스러운 언어 확률을 동시에 만족시키므로, 기존의 단순 근접 탐색보다 더 유창하고 탐지 회피가 가능하다.

실험에서는 Llama‑2‑7B, Mistral‑7B 등 오픈소스 모델을 대상으로, GCG, COLD‑Attack, ASETF 등 최신 백·화이트 박스 기법과 비교했다. RAID는 평균 공격 성공률(ASR)을 12‑18%p 상승시키고, 쿼리 수를 30% 이상 절감했으며, 퍼플렉시티 기반 탐지 모델에 대한 검출률도 현저히 낮았다.

한계점으로는 (i) 거부 방향 d 의 추정이 모델·버전에 따라 달라질 수 있어 사전 탐색 비용이 필요하고, (ii) 비평가‑가이드 디코딩이 추가 연산을 요구해 실시간 서비스 적용 시 지연이 발생할 가능성이 있다. 향후 연구는 다중 레이어에서의 거부 서브스페이스를 공동 학습하거나, 경량 비평가를 설계해 효율성을 높이는 방향이 기대된다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기