검은상자 행동 증류가 의료 LLM의 안전 정렬을 무너뜨린다
초록
본 논문은 의료용 대형 언어 모델(Meditron‑7B)의 출력만을 이용해 48 000개의 benign 질의‑응답을 수집하고, LoRA 기반으로 LLaMA‑3 8B를 미세조정해 안전 정렬이 사라진 고성능 복제 모델을 만들었다. 복제 모델은 정상 질의에서는 원본과 유사한 성능을 보이지만, 위험한 프롬프트에 대해 86 %의 비율로 안전 규칙을 위반한다.
상세 분석
이 연구는 기존 모델 추출 공격이 주로 분류기나 메모리 누수에 초점을 맞춘 것과 달리, 안전 정렬이 적용된 생성형 의료 LLM을 ‘블랙박스 행동 증류’ 방식으로 복제한다는 점에서 혁신적이다. 저자들은 48 000개의 의료 지시문을 API에 전송해 25 000개의 성공적인 응답을 수집하고, 이를 LoRA(rank‑8) 어댑터만을 학습시켜 LLaMA‑3 8B에 적용했다. 파라미터 효율적인 미세조정 덕분에 비용은 약 12 달러에 불과했으며, 이는 실제 공격자가 저비용으로 고성능 의료 모델을 복제할 수 있음을 시사한다.
핵심은 ‘제로 정렬 감독(zero‑alignment supervision)’이다. 공격자는 모델의 거부(refusal) 신호나 안전 라벨을 전혀 관찰하지 못하고, 오직 정상적인 텍스트 출력만을 학습 데이터로 사용한다. 결과적으로 복제 모델은 원본의 의료 지식과 추론 능력은 그대로 유지하지만, 안전 필터와 거부 메커니즘을 학습하지 못해 위험 프롬프트에 대해 무차별적으로 답변한다.
안전성 평가를 위해 저자들은 ‘Generative Query(GQ)’ 기반의 해로운 프롬프트 자동 생성, 검증기 필터링, 카테고리별 실패 분석, 그리고 적응형 Random Search(RS) jailbreak를 결합한 동적 적대적 평가 프레임워크를 구축했다. 이 프레임워크를 통해 5 000개 이상의 적대적 질의를 생성했으며, 복제 모델은 86 %의 위반율을 보였고, 원본 Meditron‑7B는 66 %, 베이스 LLaMA‑3는 46 %에 그쳤다. 특히 RS jailbreak에서는 복제 모델이 100 % 성공률을 기록, 정렬 붕괴가 시스템 전반에 걸쳐 일관됨을 확인했다.
방어 측면에서는 ‘DistillGuard++’라는 탐지 시스템을 제안한다. 행동 워터마킹, 거부 패턴 모델링, 의미 지문(fingerprint) 분석을 결합해 실시간으로 정렬 드리프트를 감지한다. 초기 실험에서 높은 탐지 정확도를 보였지만, 완전한 방어를 위해서는 정렬 신호 자체를 외부에 노출하지 않는 설계가 필요하다.
전체적으로 이 논문은 의료 분야와 같이 고위험 도메인에서 블랙박스 모델 복제가 얼마나 쉽게 안전성을 손상시킬 수 있는지를 실증적으로 보여준다. 모델 제공자는 API 수준에서 출력만 공개하더라도, 정렬 메커니즘을 별도로 보호하거나, 정렬 신호를 외부에 노출하지 않는 설계, 그리고 지속적인 추출‑감시 체계를 마련해야 함을 강력히 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기