보이지 않는 탈옥 공격을 탐지하는 새로운 학습 프레임워크
초록
본 논문은 대규모 비전‑언어 모델(LVLM)에서 발생하는 미지의 탈옥(jailbreak) 공격을 탐지하기 위해, 공격 데이터나 휴리스틱 규칙 없이 내부 활성화를 활용하는 두 단계 학습 구조인 LoD(Learning to Detect)를 제안한다. 레이어별 안전 개념 활성화 벡터(MSCA‑V)를 통해 안전‑관련 표현을 추출하고, 이를 안전 패턴 자동인코더(SPAE)로 압축·재구성 오류 기반 이상점수로 변환한다. 실험 결과 LoD는 다양한 LVLM과 6가지 신규 공격에 대해 AUROC을 최대 19.32% 향상시키고, 연산 효율도 62.7% 개선하였다.
상세 분석
LoD는 기존 학습 기반 탐지기가 특정 공격에 과적합되는 문제와, 휴리스틱 기반 탐지기가 정확도·효율성에서 한계가 있다는 두 갈래의 난점을 동시에 해결한다는 점에서 혁신적이다. 핵심 아이디어는 ‘안전 개념’을 레이어별 선형 분류기로 학습시켜, 입력이 안전한지 여부에 대한 확률을 각 레이어에서 추출하는 것이다. 이때 사용된 MSCA‑V는 LLM에서 제안된 Safety Concept Activation Vector를 멀티모달 LVLM에 그대로 적용했으며, 실험을 통해 시각 정보가 조기에 안전 개념을 형성한다는 사실을 확인했다(4번째 레이어부터 90% 이상 정확도). 이렇게 얻어진 L차원 확률 벡터는 고차원 잡음이 섞여 있어 직접적인 이진 분류는 어려우므로, SPAE라는 비지도 이상 탐지 모델에 입력한다. SPAE는 안전 입력만을 학습해 재구성 오류를 최소화하고, 공격 입력은 재구성 오류가 크게 증가하도록 설계돼 있다. 따라서 별도의 공격 샘플 없이도 ‘안전 패턴’과 ‘비정상 패턴’의 차이를 정량화할 수 있다.
또한 LoD는 레이어 선택 기준(P₀)을 도입해, 안전 분류기의 검증 정확도가 낮은 레이어를 자동으로 배제함으로써 표현의 신뢰성을 높인다. 이는 고차원 표현 간 겹침(overlap)을 감소시켜 SPAE가 보다 명확한 이상점수를 산출하도록 돕는다. 실험에서는 Qwen2.5‑VL, LLaVA‑v1.6‑vicuna, CogVLM‑chat‑hf 등 세 가지 최신 LVLM에 대해 기존 5가지 탐지 기법(학습 기반 3종, 휴리스틱 기반 2종)과 비교했으며, 모든 경우에서 AUROC이 평균 19.32% 상승하고, 추론 시간은 최대 62.7% 단축되었다.
이러한 설계는 (1) 공격 데이터가 부족하거나 새로운 공격이 등장해도 일반화가 가능하고, (2) 복잡한 휴리스틱을 설계할 필요 없이 모델 자체의 내부 신호만으로 높은 정확도를 달성한다는 두 가지 장점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기