활성 스티어링 외부효과: 무해한 조정이 LLM 탈옥 위험을 높이다
초록
활성 스티어링은 사후 정렬 기법으로 모델의 유용성을 향상시키지만, 본 논문은 순수히 안전한 데이터로 학습된 스티어링 벡터가 모델의 초기 거부 경로를 약화시켜 안전 마진을 감소시키고, 기존 탈옥 공격의 성공률을 80 % 이상으로 끌어올린다는 ‘스티어링 외부효과’를 발견하였다.
상세 분석
본 연구는 사후 정렬 기법인 활성 스티어링(activation steering)이 실제 서비스 환경에서 어떻게 안전성을 저해할 수 있는지를 체계적으로 조사한다. 저자들은 두 가지 전형적인 스티어링 워크플로우—컴플라이언스 스티어링(거부를 억제해 응답률을 높이는 방향)과 JSON‑포맷 스티어링(출력 형식을 구조화하는 방향)—을 각각 Llama‑2‑7B‑Chat, Llama‑3‑8B‑Instruct, Gemma‑7B‑it 모델에 적용하였다. 스티어링은 잔차 스트림(hidden‑state)에 고정된 벡터 v를 α·v 만큼 더해주는 방식으로 구현되며, 파라미터 자체는 변하지 않는다.
핵심 가설은 “스티어링이 초기 토큰 분포를 비거부 경로로 편향함으로써 안전 마진을 축소한다”는 것이다. 이를 검증하기 위해 저자들은 (1) 베이스라인 안전성(거부율)과 스티어링 적용 후의 거부율 변화를 측정하고, (2) 기존의 블랙박스 탈옥 공격(PAIR, CoP, TAP)과 적응형 프롬프트 재작성 공격을 동일 조건에서 실행해 공격 성공률(ASR)을 비교하였다. 결과는 놀라웠다. 스티어링 적용 후 동일한 악성 프롬프트에 대해 ASR이 30 %~99 %까지 급증했으며, 특히 적응형 공격에서는 거의 100 %에 육박하는 성공률을 보였다.
메커니즘 분석에서는 토큰‑별 KL 발산을 이용해 스티어링 전후의 출력 분포 차이를 시각화하였다. 스티어링이 적용된 모델은 첫 몇 토큰에서 “죄송합니다”와 같은 거부 프리픽스의 확률이 현저히 감소하고, 대신 “물론”·“다음과 같이”와 같은 긍정적/구조적 프리픽스가 크게 증가한다. 이러한 초기 편향은 자동 회귀 생성 과정에서 증폭돼, 초기 비거부 상태가 유지되는 한 전체 응답이 위험한 방향으로 흐르게 된다.
또한, 저자들은 스티어링이 “도메인 이동”을 일으켜, 원래 해로운 프롬프트를 내부적으로 더 무해한 서브스페이스로 투사한다는 가설을 제시한다. 이는 내부 표현이 안전 마진을 정의하는 고차원 초평면에 가까워지게 만들며, 작은 프리픽스 변화만으로도 거부 메커니즘을 우회할 수 있게 만든다.
실험 설계는 두 가지 평가 체계—베치마크‑전용(원본 해로운 프롬프트 직접 입력)과 시너지 취약성(공격자가 모델 피드백을 이용해 프롬프트를 반복적으로 수정)—를 포함한다. 두 체계 모두에서 스티어링이 적용된 모델은 원본 대비 현저히 높은 ASR을 기록했으며, 특히 시너지 취약성에서는 “힘 증폭기” 효과가 가장 두드러졌다.
마지막으로, 논문은 잠재적 완화 방안으로 (1) 스티어링 벡터의 안전성 검증(예: 거부 프리픽스 보존 테스트), (2) 동적 α 조절을 통한 안전 마진 유지, (3) 스티어링 적용 전후의 내부 표현 클러스터링을 통한 이상 탐지를 제안한다. 그러나 이러한 방안도 아직 초기 단계이며, 스티어링 자체가 안전성에 미치는 영향을 정량화하는 표준화된 프로토콜이 필요함을 강조한다.
요약하면, 본 논문은 “무해한” 활성 스티어링이 실제 서비스에서 안전 가드레일을 은연히 약화시켜, 기존 탈옥 공격을 훨씬 쉽게 만든다는 중요한 경고를 제시한다. 이는 사후 정렬 기법을 도입하려는 기업·연구자에게 안전성 평가와 모니터링을 반드시 병행해야 함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기