회로 제한 가중치 편집으로 안전 거부 구현

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM의 안전 거부 행동을 런타임 개입 없이 오프라인 가중치 업데이트로 구현한다. EAP‑IG 기반 회로 탐색으로 거부에 핵심적인 희소 회로를 식별하고, 해당 회로에만 제한된 가중치 편집(ΔθC)을 수행한다. 결과적으로 전체 파라미터의 <5%만 수정해 선택적 거부를 달성하면서 유틸리티 손실을 최소화한다.

상세 분석

C‑Δθ는 세 단계로 구성된다. 첫 번째 단계는 EAP‑IG(Edge Attribution Patching with Integrated Gradients)를 이용해 ‘거부‑인과 회로’를 탐색한다. 저자는 해로운 프롬프트와 무해한 프롬프트를 쌍으로 만든 대비 데이터셋을 사용해, 해로운 입력에서 거부 확률을 높이는 내부 활성화와 무해한 입력에서 이를 억제하는 활성화를 비교한다. KL‑기반 목표 J(x;θ)를 정의해 거부 경향을 정량화하고, 이 목표에 대한 그래디언트를 통합함으로써 각 레이어·토큰 위치·컴포넌트에 중요도 점수를 부여한다. 점수 상위 κ 비율을 선택해 이진 회로 마스크 C를 만든 뒤, 이를 파라미터 마스크 Π로 변환한다. 여기서 선택된 컴포넌트는 주로 FFN의 MLP‑2 프로젝션 채널이며, 이는 잔차 스트림에 직접 기여하므로 행동 제어에 적합하다.

두 번째 단계는 회로‑제한 가중치 편집이다. 저자는 동일한 해로운 프롬프트에 대해 두 개의 보조 모델을 미세조정한다. θ⁺ 는 거부 템플릿을, θ⁻ 는 준수 템플릿을 목표로 하며, 모든 업데이트는 마스크 Π에 의해 제한된다. 즉, ∇θL ← Π⊙∇θL 으로 회로 외 파라미터는 전혀 변화하지 않는다. 두 모델의 차이 Δθ_circuit = θ⁺ − θ⁻ 는 회로 내부에서 거부 신호를 가장 잘 표현하는 방향을 제공한다. 최종 편집 모델은 θ′ = θ₀ + α·Δθ_circuit 으로 얻으며, α 는 강도 하이퍼파라미터다.

세 번째 단계는 전체 파이프라인을 정리한 알고리즘 1이다. 회로 탐색→마스크 생성→두 보조 모델 학습→Δθ 추출→베이스 모델에 적용한다. 실험에서는 Llama‑3·1·8B, Gemma‑2·9B 등 6개 모델과 5개 해악 카테고리(범죄, 혐오, 건강, 법률, 성적)를 대상으로, 기존 활성화 스티어링(AS), 조건부 스티어링(CAST), 가중치 스티어링(WS)과 비교했다. 결과는 C‑Δθ가 해로운 프롬프트에 대한 거부율을 70~~95% 수준으로 크게 높이는 동시에, 무해한 프롬프트에 대한 오버‑거부를 1~~5% 수준으로 억제한다. 또한 MMLU·GSM8K 같은 유틸리티 벤치마크에서 성능 저하가 최소(≤2%)에 그쳤다.

핵심 통찰은 ‘거부 행동은 모델 내부의 매우 국소화된 회로에 의해 구현된다’는 점이다. 기존 방법이 전체 활성화나 전체 파라미터 공간을 조작해 부작용을 초래하는 반면, 회로‑제한 편집은 인과적으로 필수적인 파라미터만 수정한다. 따라서 배포 시 런타임 훅이 필요 없으며, 한 번의 오프라인 업데이트만으로 대규모 서비스에 적용할 수 있다. 한계로는 회로 탐색에 대비 데이터가 필수이며, 새로운 해악 카테고리나 도메인 전이 시 재탐색이 필요할 수 있다. 또한 κ 와 α 의 선택이 민감하게 결과에 영향을 미치므로 자동 튜닝 기법이 요구된다.

회로 제한 가중치 편집으로 안전 거부 구현

초록

상세 분석

댓글 및 학술 토론

의견 남기기