위험에 강한 파인튜닝 적응형 정규화로 안전 유지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 파인튜닝 과정에서 안전성 저하를 방지하기 위해 위험 신호에 따라 정규화 강도를 동적으로 조절하는 적응형 정규화 프레임워크를 제안한다. 위험 평가는 (1) 외부 판정 모델이 생성 텍스트에 부여하는 해로운 점수인 Safety Critic과 (2) 모델 내부 활성화를 이용해 사전‑생성 단계에서 위험을 예측하는 경량 분류기로 수행한다. 위험도가 높을수록 KL 정규화 비중을 늘려 원본 안전 정책에 머무르게 하고, 위험도가 낮을 때는 일반적인 손실(NLL)에 집중한다. 실험 결과, 다양한 모델군과 공격 시나리오에서 기존 고정 정규화 대비 공격 성공률을 크게 낮추면서 다운스트림 성능을 유지함을 보였다.

상세 분석

이 연구는 파인튜닝 중 안전성 저하라는 실질적인 문제를 “위험 신호 → 정규화 강도 매핑”이라는 간단하면서도 효과적인 메커니즘으로 해결한다. 핵심 아이디어는 두 단계로 구성된다. 첫째, 각 배치 혹은 샘플에 대해 위험 점수 sₜ∈

위험에 강한 파인튜닝 적응형 정규화로 안전 유지

초록

상세 분석

댓글 및 학술 토론

의견 남기기