구면 회전으로 제어하는 언어 모델 스티어링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 추론 단계에서 LLM의 활성화를 벡터 추가가 아닌 구면 상의 회전으로 조정하는 “Spherical Steering”을 제안한다. 정규화된 활성화 벡터를 목표 개념 방향으로 지오데식(대원) 경로를 따라 회전시켜 크기를 보존하고, vMF 기반 신뢰도 게이트로 입력별 조정 강도를 동적으로 결정한다. 다중 선택 과제에서 기존 추가 방식 대비 10% 이상 정확도 향상을 보이며, 개방형 생성 품질도 유지한다.

상세 분석

Spherical Steering은 기존 활성화 추가 방식이 초래하는 노름 변형 문제를 근본적으로 해결한다. LLM의 각 레이어 출력은 RMSNorm 등 정규화 층을 거쳐 크기가 일정하게 유지되는 것이 일반적인데, 이는 표현이 방향(벡터의 단위화된 형태) 위에 인코딩된다는 암시를 제공한다. 논문은 이 특성을 활용해, 사전 학습된 모델을 그대로 두고 contrastive positive/negative 예시로부터 얻은 프로토타입 방향 μ 을 정의한다. 이후 현재 토큰의 활성화 h(l) 를 정규화해 ĥ 를 구하고, 목표 방향 μ_T (= μ)와의 각 θ 를 계산한다. 회전 강도 t∈

구면 회전으로 제어하는 언어 모델 스티어링

초록

상세 분석

댓글 및 학술 토론

의견 남기기