자기반사 강화로 대규모 추론 모델을 안전하게 방어하는 SelfGuard
초록
SelfGuard는 대규모 추론 모델(LRM)의 안전성을 향상시키기 위해 두 단계의 경량 방어 메커니즘을 제안한다. 첫 단계에서는 안전 지향 프롬프트를 삽입해 모델의 잠재적 안전 인식을 활성화하고, 두 번째 단계에서는 프롬프트에 의해 유도된 은닉 상태의 방향 변화를 추출·증폭하여 사후 조정한다. 실험 결과, SelfGuard는 다양한 위험 상황과 모델 규모에 걸쳐 안전 성능을 크게 높이면서도 기존 유틸리티를 거의 손상시키지 않는다.
상세 분석
SelfGuard는 기존 안전 정렬 방법이 갖는 두 가지 한계를 효과적으로 보완한다. 첫째, 사후 미세조정이나 대규모 파인튜닝처럼 계산 비용이 높은 접근법을 사용하지 않는다. 대신 입력에 안전‑지향 시스템·사용자 프롬프트(s_sys, s_usr)를 결합해 모델 내부에 “안전 반사”를 자연스럽게 유도한다. 이 과정에서 모델은 자체적인 안전 인식을 활성화하지만, 기존 연구에서 지적된 ‘인식‑준수 격차(awareness‑compliance gap)’ 때문에 바로 안전하게 행동하지는 않는다. 둘째, SelfGuard는 이 격차를 은닉 상태 공간에서의 방향 벡터(v_safety)로 형식화한다. 구체적으로, 위험 데이터셋 D_harm에 대해 원본 입력과 안전 프롬프트가 결합된 입력 사이의 평균 은닉 상태 차이를 레이어별로 계산하고, 이를 전체 모델에 적용할 단일 스티어링 벡터로 합산한다. 이 벡터는 λ라는 스케일링 파라미터에 의해 증폭되어, 추론 단계에서 h′(x) → h′′(x)=h′(x)+λ·v_safety 로 주입된다.
핵심 기술적 통찰은 “안전 인식 → 은닉 상태 이동 → 방향 증폭”이라는 순환을 통해 사전 훈련된 LRM의 내재된 안전성을 외부 조정 없이도 강화한다는 점이다. 은닉 상태의 선형 이동이 실제로 모델의 출력 정책에 미치는 영향을 실험적으로 검증했으며, 특히 jailbreak 공격에 대한 저항력이 크게 향상된 것을 확인했다. 또, λ와 적용 레이어를 데이터셋 별 검증을 통해 최적화함으로써 과도한 스티어링으로 인한 유틸리티 손실을 최소화한다.
실험에서는 Qwen3‑4B/8B/14B 시리즈를 백본으로 사용했으며, 기존 안전 파인튜닝(STAR‑1, SafeChain 등), 스티어링 기반(Alpha‑steer), 프롬프트 기반(Self‑Reminder, ReasoningGuard) 방법과 비교했다. HarmBench, AdvBench, SORRY‑Bench 등에서 공격 성공률(ASR)을 크게 낮추면서도, HumanEval, AIME, MATH500, GPQA 등 유틸리티 벤치마크에서는 정확도 저하가 거의 없었다. 특히 Alpha‑steer와 달리 “정렬 세금”이 거의 발생하지 않아, 안전성과 성능 사이의 트레이드오프를 효과적으로 해소한다는 점이 주목할 만하다.
한계점으로는 안전 벡터 v_safety를 사전에 계산해야 하는 점과, λ 선택이 모델 규모·데이터 특성에 따라 민감하게 작용할 수 있다는 점을 들 수 있다. 또한, 현재는 위험 데이터셋 D_harm가 제한적이므로, 보다 다양한 도메인·문화적 위험에 대한 일반화 검증이 필요하다. 향후 연구에서는 자동화된 벡터 추출 및 다중 안전 목표(예: 개인정보 보호, 편향 억제)를 동시에 다루는 멀티‑벡터 스티어링 기법을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기