모델 스티어링의 안전성 재고 특이성과 견고성 평가

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 추론 시점에 은닉 표현을 조작하는 모델 스티어링 기법을 평가한다. 효능(efficacy)뿐 아니라 ‘특이성(specificity)’을 일반, 제어, 견고성 세 차원으로 정의하고, 과다 거부(overrefusal)와 사실성 환각(faithfulness hallucination) 두 안전‑중심 과제에 적용한다. 실험 결과 스티어링은 목표 속성을 성공적으로 개선하고 일반·제어 특이성은 유지하지만, 견고성 특이성은 크게 저하돼 공격적 프롬프트에 취약해짐을 보여준다.

상세 분석

이 연구는 모델 스티어링을 단순히 목표 속성만을 바꾸는 것으로 보는 기존 패러다임을 비판하고, ‘특이성’이라는 개념을 체계화한다. 특이성은 (1) 일반 특이성: 언어 유창성, 벤치마크 성능 등 원래 모델이 갖고 있던 전반적인 능력이 보존되는가, (2) 제어 특이성: 목표 속성과 의미적으로 연관된 속성(예: 과다 거부 스티어링에서는 실제 위험한 요청에 대한 거부 행동)이 유지되는가, (3) 견고성 특이성: 이러한 제어 속성이 분포 이동이나 적대적 프롬프트(예: jailbreak)와 같은 상황에서도 유지되는가, 로 구분된다.

논문은 두 가지 안전‑중심 시나리오를 선택했다. 첫 번째는 과다 거부 스티어링으로, 안전 정렬된 LLM이 benign 질문을 지나치게 거부하는 문제를 완화한다. 여기서 목표는 benign 질문에 대한 응답률을 높이는 것이며, 제어 속성은 여전히 위험한 질문에 대해 거부하도록 유지하는 것이다. 두 번째는 사실성 환각 스티어링으로, 컨텍스트와 내부 지식이 충돌할 때 모델이 외부 정보를 과도하게 신뢰해 사실과 다른 답변을 내는 현상을 줄인다.

다양한 스티어링 기법—difference‑in‑means, linear probe, supervised steering vector, representation fine‑tuning, partial orthogonalization—을 8B 파라미터까지의 instruction‑tuned LLM에 적용했다. 실험 설계는 (i) 효능 측정, (ii) 일반 특이성 평가(퍼플렉시티, MMLU 정확도), (iii) 제어 특이성 평가(위험 질문에 대한 거부율), (iv) 견고성 특이성 평가(다양한 jailbreak 프롬프트와 오염된 컨텍스트) 네 단계로 구성된다.

결과는 일관되게 나타난다. 모든 스티어링 방법은 과다 거부와 사실성 환각을 크게 감소시켜 효능을 달성한다. 일반 특이성 측면에서는 퍼플렉시티와 벤치마크 성능이 크게 손상되지 않아 모델의 전반적인 언어 능력은 유지된다. 제어 특이성도 대부분 유지되는데, 특히 constrained steering(거부 행동을 명시적으로 보존하도록 설계)에서는 위험 질문에 대한 거부율이 크게 떨어지지 않는다. 그러나 견고성 특이성에서는 심각한 결함이 드러난다. 스티어링된 모델은 jailbreak 공격에 대해 기존 모델보다 훨씬 높은 성공률을 보였으며, 오염된 컨텍스트가 주어졌을 때 사실과 무관한 정보를 과도하게 신뢰하는 경향이 강화되었다. 즉, 스티어링이 목표 속성만을 조정한다고 가정했을 때, 실제 운영 환경에서 안전성을 보장하지 못한다는 것이다.

이러한 발견은 두 가지 중요한 시사점을 제공한다. 첫째, 스티어링 기법을 평가할 때는 효능 외에도 다차원 특이성 검증이 필수적이며, 특히 견고성 검증을 빼놓아서는 안 된다. 둘째, 현재 제안된 스티어링 방법들은 견고성 확보를 위한 메커니즘이 부족하므로, 향후 연구는 적대적 상황에서도 제어 속성을 유지할 수 있는 정규화 기법이나 안전 제약을 내재화하는 방향으로 나아가야 한다.

모델 스티어링의 안전성 재고 특이성과 견고성 평가

초록

상세 분석

댓글 및 학술 토론

의견 남기기