다국어 탈옥 방지를 위한 응답 기반 지식 증류가 안전성을 위협한다
초록
본 연구는 오픈AI o1-mini 모델의 안전한 거부 응답을 LoRA 기반 파라미터 효율 미세조정으로 세 개의 오픈소스 LLM에 증류했지만, 오히려 모든 학생 모델에서 탈옥 성공률이 상승함을 발견한다. ‘경계’ 데이터 제거가 일부 개선을 보였지만 추론 성능 손실이 지속된다.
상세 분석
이 논문은 다국어 안전 정렬에서 지식 증류(KD)의 적용 가능성을 최초로 탐색한다는 점에서 의미가 크다. 저자들은 XSafety 데이터셋에서 10개 언어, 약 28 000개의 jailbreak 프롬프트를 수집하고, 이를 OpenAI o1-mini에게 입력해 “안전한 거부” 응답을 얻는다. 이 응답-프롬프트 쌍을 LoRA(랭크 16, 스케일 32)로 0.5% 파라미터만 학습시키는 PEFT 방식으로 세 가지 학생 모델(Meta‑Llama‑3‑8B‑Instruct, Gemma‑2‑2B‑IT, Qwen3‑8B)에 전달한다.
핵심 결과는 Table 2에 명시된 바와 같이, 증류 후 모든 모델의 Jailbreak Success Rate(JSR)가 상승했다는 점이다. 특히 Gemma‑2‑2B‑IT는 전체 JSR이 5.0%에서 21.6%로 무려 16.6 퍼센트포인트 급증했으며, 고자원 언어와 저자원 언어 모두에서 악화가 관찰됐다. Meta‑Llama‑3‑8B‑Instruct와 Qwen3‑8B도 각각 +1.4%와 +2.6% 정도 상승했지만, 통계적으로 유의미한 차이를 보였다.
저자들은 세 가지 원인을 제시한다. 첫째, “경계” 데이터라 불리는 미묘한 안전‑불안전 경계 상황이 학생 모델에 과도한 일반화를 유도해, 거부 판단이 모호해지고 결국 “invalid” 혹은 “unsafe” 출력이 늘어난다. 둘째, 교사 모델(o1-mini)의 내재된 취약점이 그대로 전이돼, 특히 로그 확률이 아닌 하드 라벨(텍스트)만을 사용한 응답 기반 KD가 교사의 오류를 증폭시킨다. 셋째, 파라미터 효율 미세조정 특성상 기본 모델의 기존 지식이 충분히 보존되지 않아, 기존에 학습된 안전 규칙이 “catastrophic forgetting” 현상으로 사라진다.
흥미롭게도, 저자들은 “경계” 데이터를 사전 제거한 정제 실험을 수행해, Gemma‑2‑2B‑IT와 Qwen3‑8B에서 JSR 감소(각각 -14.0pp, -1.7pp)를 확인했다. 그러나 이 과정에서 GSM8K와 같은 추론 벤치마크 점수가 전반적으로 하락했으며, 안전성 향상과 추론 성능 사이의 트레이드오프가 명확히 드러났다.
또한, 다국어 일반화 측면에서, 증류 데이터에 포함되지 않은 저자원 언어(스와힐리어, 자와어)에서는 안전성 저하가 더욱 두드러졌다. 이는 교사 모델의 다언어 거부 능력이 학생 모델에 완전히 전이되지 않음을 시사한다.
전체적으로 이 연구는 응답 기반 KD가 다국어 LLM 안전 정렬에 있어 “쉽게 적용 가능한 해결책”이 아니라, 오히려 새로운 위험을 초래할 수 있음을 경고한다. 향후 연구는 (1) 소프트 라벨(로그잇) 기반 증류, (2) 다단계 교사‑학생 구조, (3) 안전 데이터의 정교한 필터링 및 라벨링 품질 향상 등을 통해 이러한 부작용을 최소화할 방안을 모색해야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기