안전 정렬된 LLM을 교정하는 새로운 캘리브레이션 기반 탈옥 기법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 안전 정렬이 만든 토큰 분포 왜곡을 “캘리브레이션 오류”로 모델링하고, 약한 비정렬 모델·예측 모델·강한 정렬 모델을 이용한 ‘Weak‑to‑Strong’ 탈옥을 예측 집계 문제로 재구성한다. 손실 함수의 듀얼 공간에서 그래디언트 이동(Gradient Shift) 규칙을 도출해 최적 집계 방식을 제시하고, 교차 엔트로피 손실에서는 기존 로그‑산술 방법이, 제곱 손실에서는 가산형 업데이트가 나오며, 두 방식을 절충한 하이브리드 규칙을 제안한다. 실험 결과, 특히 안전‑강화된 gpt‑oss‑120b 모델에서 공격 성공률(ASR)과 “Jailbreak Tax” 모두 기존 방법보다 크게 개선됨을 보인다.

상세 분석

이 논문은 LLM의 안전 정렬이 실제로는 사전 정렬(pre‑alignment) 분포에 대한 체계적인 왜곡(distortion)이라고 가정한다. 이 왜곡을 통계적 미보정(miscalibration)으로 해석함으로써, 정렬된 대형 모델(π_t)과 정렬되지 않은 소형 모델(π_h), 그리고 π_h 를 조건으로 π_t 를 예측하는 보조 모델(π_{t|h})을 이용해 “예측 집계(forecast aggregation)” 프레임워크를 만든다. 핵심 아이디어는 적절한 손실 함수 ℓ가 정의하는 듀얼 공간(gradient space)에서, π_h 와 π_{t|h} 사이의 그래디언트 차이를 이용해 π_t 의 로그를 이동시키는 것이다.

수학적으로, 엄격히 적합한 손실(proper loss)은 볼록 함수 G와 그 그래디언트 ∇G 로 표현되며, Bregman 발산 D_G(p,q) 가 예측 오차와 동일함을 이용한다. 이 구조 하에서 목표는
f*(π_t,π_h,π_{t|h}) = argmin_q D_G(Y_pre, q)
즉, 사전 정렬 분포 Y_pre 에 대한 기대 손실을 최소화하는 q 를 찾는 것이다. 이를 풀면
∇G(q) = ∇G(π_t) – λ·

안전 정렬된 LLM을 교정하는 새로운 캘리브레이션 기반 탈옥 기법

초록

상세 분석

댓글 및 학술 토론

의견 남기기