진화 기반 프롬프트 공격으로 드러낸 LLM 미삭제 지식
초록
REBEL은 진화적 탐색을 이용해 LLM의 “잊힌” 정보를 다시 끌어내는 적대적 프롬프트를 자동 생성한다. 기존의 잊힘 평가가 단순 질문에 의존해 실제 잔존 지식을 과소평가하는 문제를 지적하고, TOFU와 WMDP 벤치마크에서 다양한 언러닝 알고리즘을 대상으로 공격 성공률(ASR)을 60%‑93%까지 끌어올렸다.
상세 분석
본 논문은 현재 LLM 언러닝 연구가 직면한 근본적인 평가 한계를 명확히 제시한다. 기존 방법은 “benign query”에 대한 모델의 거부 혹은 “I don’t know” 응답을 잊힘의 지표로 삼아, 실제 내부 파라미터나 임베딩 공간에 남아 있는 정보를 간과한다. REBEL은 이러한 함정을 피하기 위해 세 가지 핵심 요소를 결합한다. 첫째, 블랙박스 공격자를 가정하고, 원본 질문을 변형해 다양한 프롬프트 변이를 생성한다. 둘째, “해커 모델”(Hacker Model)과 “판단 모델”(Judge Model)을 이용해 진화적 선택‑돌연변이 루프를 구현한다. 해커 모델은 현재 후보 프롬프트를 기반으로 새로운 변이를 생성하고, 판단 모델은 각 변이에 대한 응답을 정량적 누출 점수(ℓ)로 평가한다. 셋째, 점수가 일정 임계값을 초과하면 탐색을 종료하고 성공적인 jailbreak을 반환한다. 이 과정은 top‑k 엘리트 프롬프트를 유지하며 점진적으로 정교화되므로, 초기 무작위 변이보다 훨씬 효율적으로 고성능 공격을 찾을 수 있다.
실험에서는 Qwen2.5‑7B‑Instruct를 해커와 판단 모델로 동일하게 사용했으며, 5단계의 진화 과정을 통해 총 4,220개의 프롬프트를 탐색했다. 비교 대상으로는 기존 “Baseline”(원본 질문만 사용)과 “Leak@K”(다중 샘플링만 수행) 두 방법을 두었다. 결과는 TOFU 데이터셋에서 60% 수준, WMDP에서는 무려 93%에 달하는 ASR을 기록, 기존 평가가 크게 과소평가된 사실을 입증한다. 특히 AltPO, DPO‑style, KL‑distillation 등 최신 언러닝 기법을 적용한 모델에서도 여전히 높은 누출률을 보였으며, 이는 현재 언러닝 알고리즘이 파라미터 수준에서의 완전 삭제보다는 표면적인 출력 억제에 머물러 있음을 시사한다.
또한 논문은 누출 점수 계산 방식을 두 가지로 제시한다. (1) 오픈형 질문에서는 LLM을 판단자로 활용해 정성적·정량적 누출 정도를 평가하고, (2) 선택형 질문에서는 로그잇 기반 확률을 직접 계산한다. 이러한 이중 접근법은 다양한 태스크에 적용 가능하도록 설계되었으며, 특히 선택형 벤치마크에서 높은 정밀도를 확보한다.
마지막으로 저자들은 REBEL을 새로운 “언러닝 영구성” 벤치마크로 제안한다. 향후 연구에서는 (i) 더 큰 모델에 대한 확장성, (ii) 다중 언어·다중 도메인에 대한 일반화, (iii) 판단 모델의 편향 최소화 방안 등을 탐구할 여지가 있다. 전반적으로 REBEL은 LLM 보안·프라이버시 평가에 있어 “프롬프트 기반 스트레스 테스트”의 필요성을 강력히 주장하며, 현재 언러닝 방법론의 실질적 한계를 드러내는 중요한 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기