LLM 탈옥 방지를 위한 사전 방어 체계
초록
본 논문은 LLM에 대한 다중 턴 jailbreak 공격을 차단하기 위해, 모델이 거부 응답을 보일 때 의도적으로 “가짜 위험” 응답을 생성해 공격자의 최적화 루프를 오도하는 ProAct라는 사전 방어 프레임워크를 제안한다. 실험 결과, 기존 방어와 결합했을 때 공격 성공률을 최대 94%까지 감소시키고, 최신 공격에 대해서는 0%까지 낮출 수 있음을 보인다.
상세 분석
ProAct는 기존의 수동적 방어가 “거부”라는 부정적 신호를 제공함으로써 공격자가 프롬프트를 점진적으로 개선하는 문제점을 인식하고, 이를 역이용한다. 핵심 아이디어는 모델이 안전성 위반을 감지해 거부할 경우, 별도의 방어 에이전트가 “스푸리어스(spurious) 응답”을 생성하도록 하는 것이다. 이 응답은 겉보기에는 공격자가 원하는 위험한 내용처럼 보이지만 실제로는 무해한 텍스트 혹은 암호화된 형태(이모지, Base64, 모스 부호 등)로 구성된다. 공격자는 자신의 내부 평가 함수 Sj 가 1(성공)이라고 판단하게 되지만, 실제 안전성 스코어 Sg 는 0이다. 따라서 공격자는 더 이상 프롬프트를 개선할 필요가 없다고 착각하고 탐색을 중단한다.
프레임워크는 세 단계로 구성된다. ① Response Monitoring: 기본 LLM의 출력이 안전성 거부인지 자동 판단한다(LLM‑as‑judge 사용). ② ProAct Defender: 거부가 감지되면, 쿼리 요약과 이전 시도 정보를 입력으로 받아 주제와 일치하지만 실제 위험 요소가 없는 스푸리어스 응답을 생성한다. 여기서는 체인‑오브‑생각, few‑shot 예시, 그리고 공격 전략에 대한 메타‑프롬프트를 활용해 설득력을 높인다. ③ Surrogate Evaluator: 독립적인 평가 모델이 생성된 응답을 “위험”으로 인식하는지 반복적으로 검증하고, 필요 시 재생성한다. 최종적으로 스푸리어스 응답이 공격자의 평가를 만족하면 이를 사용자에게 전달한다.
수학적으로는 공격자의 목표 PA = arg max E_p
댓글 및 학술 토론
Loading comments...
의견 남기기