LLM 안전을 파라미터 영역으로 제한할 수 있을까
초록
본 논문은 파라미터, 뉴런, 레이어, LoRA 가중치 등 네 가지 수준에서 안전 영역을 식별하는 최신 방법들을 체계적으로 평가한다. 10개의 안전 식별 데이터셋과 다양한 LLM 백본을 사용해 식별된 안전 영역 간의 교집합-합집합(IoU) 겹침을 측정했으며, 데이터셋 수가 늘어나고 유틸리티 데이터셋으로 정제될수록 겹침이 크게 감소함을 발견한다. 결과는 현재 기술이 데이터셋에 독립적인 안정적인 안전 영역을 일관되게 찾아내지 못한다는 점을 시사한다.
상세 분석
이 연구는 안전 영역을 “신뢰성·국소성·수렴식별성”이라는 세 가지 기준으로 정의하고, 네 가지 대표적 방법—SNIP·Wanda(파라미터 수준), SafeNeuron(뉴런 수준), SafeLayer(레이어 수준), NLSR(LoRA 가중치 수준)—의 수렴식별성을 실험적으로 검증한다. 각 방법은 위험 질문에 대한 모델의 거부 응답을 기준으로 중요도 점수를 매겨 상위 비율을 안전 영역으로 선정한다. 논문은 동일 모델에 대해 10개의 다중 카테고리 안전 데이터셋을 무작위 추출하고, 각 데이터셋별로 안전 영역을 도출한 뒤 IoU를 계산한다. 결과는 대부분의 방법에서 IoU가 0.2~0.4 수준에 머물며, 특히 SafeLayer는 재현이 불가능함을 보고한다. 또한, 유틸리티 데이터셋(비해로운 질문이 아닌 일반 질의)으로 안전 영역을 다시 정제하면 IoU가 추가로 감소한다. 이는 안전과 유틸리티가 동일 파라미터에 얽혀 있어, 안전 전용 파라미터를 분리하기 어렵다는 근본적인 문제를 드러낸다. 실험은 Qwen, LLaMA, GPT‑Neo 등 다양한 모델 규모와 아키텍처에 적용했으며, 모델 크기가 커질수록 겹침이 약간 개선되지만 여전히 낮은 수준에 머문다. 한계점으로는 안전 데이터셋의 품질·다양성 의존성, IoU 외 다른 정량적 지표 부재, 그리고 실제 파인튜닝 시 안전 영역을 고정했을 때 성능 저하를 측정하지 않은 점을 들 수 있다. 전반적으로 현재 안전 영역 식별 기법은 데이터셋에 민감하고, 안정적인 “안전 구역”을 정의하기엔 충분히 견고하지 않으며, 보다 구조적·인과적 분석이 필요함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기