신경 수준 편집으로 구현하는 가치 정렬 제어
초록
본 논문은 대형 언어 모델(LLM)의 가치 정렬에서 발생하는 ‘가치 누수’를 정의하고, 이를 정량화하는 메트릭을 제시한다. 이후, 가치와 연관된 희소 뉴런을 식별한 뒤 추론 시 활성값을 편집하는 NeVA 프레임워크를 제안한다. 실험 결과, NeVA는 목표 가치 강화와 일반 능력 유지 사이에서 기존의 표현‑레벨 스티어링보다 우수한 성능을 보이며, 비목표 가치에 대한 누수를 크게 감소시킨다.
상세 분석
논문은 먼저 인간 가치 체계인 Schwartz의 10가지 기본 가치를 LLM에 매핑하고, 기존 스티어링 기법이 목표 가치만을 강화하면서도 비목표 가치가 동시에 상승하는 현상을 ‘가치 누수(value leakage)’라 명명한다. 이를 정량화하기 위해 CSR(Control Success Ratio) 점수를 기반으로 ΔSᵢ→ⱼ = CSR(Mᵢ, vⱼ) – CSR(M_base, vⱼ) 를 정의하고, 양의 변화만을 취해 Leakⱼ,ᵢ = max(ΔSᵢ→ⱼ,0) 로 표현한다. 이어서 누수량을 목표 가치의 최대 가능한 향상량 Gainⱼ 로 정규화한 Normalized Leakage Ratio(NLR)와, 가치의 상위‑범주(예: 보수성, 자기‑초월) 간 전이 정도를 행별 정규화한 Normalized Group Leakage Ratio(NGLR)를 도입해 누수의 구조적 특성을 파악한다.
NeVA는 이러한 누수 문제를 뉴런 수준에서 해결한다. 먼저 각 가치에 대해 고정된 데이터셋으로 선형 프로브를 학습해 가치‑민감 방향 Wᵥ 를 추정한다. 프로브의 정확도가 95 % 이상인 경우에만 사용해 신뢰성을 확보한다. 이후 각 레이어의 FFN 뉴런 벡터 vₗₖ와 Wᵥ 사이의 코사인 유사도 sₗₖ = cos(vₗₖ, Wᵥ) 를 계산하고, 절대값이 큰 상위 K개의 뉴런을 ‘가치‑정렬(aligned)’ 혹은 ‘가치‑반대(opposed)’ 집합으로 구분한다. 이 과정은 값‑특정 뉴런을 희소하게 추출함으로써 개입 범위를 최소화한다.
추론 단계에서는 선택된 뉴런의 활성값 mₗₖ에 대해
mₗₖ,edit = mₗₖ·
댓글 및 학술 토론
Loading comments...
의견 남기기