거절 행동의 다면성 단일 방향을 넘어

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이 논문은 LLM의 거절·비준수 행동이 하나의 선형 방향만으로 설명될 수 없으며, 11가지 거절 유형마다 서로 다른 활성화 공간 방향을 가진다는 것을 보인다. 그러나 어떤 방향을 조작해도 거절률과 과잉 거절률 사이의 트레이드오프는 거의 동일하게 나타나, 실제로는 하나의 1차원 제어 노브가 작동한다는 새로운 해석을 제시한다.

상세 분석

본 연구는 기존 “거절은 하나의 선형 방향에 의해 매개된다”는 가설을 전면적으로 재검토한다. 저자들은 안전 거절뿐 아니라 불완전 요청, 지원 불가 요청, 인간화 요구, 전문 조언 요구, 부적절 주제, 범죄·불법 지원 요청, 과잉 거절 등 총 11개의 거절·비준수 카테고리를 정의하고, 각각에 대해 대규모 언어 모델(Gemma‑2‑9B‑it, Llama‑3.1‑8B‑Instruct)의 잔차 스트림(residual‑stream) 활성화를 수집한다. 각 카테고리별로 “거절 방향”을 평균 활성화 차이벡터로 정의하고, 코사인 유사도로 비교했을 때 0.4~0.6 정도의 낮은 유사도와 거의 직교에 가까운 경우도 관찰돼, 서로 다른 거절 유형이 기하학적으로 구분되는 방향을 가진다는 결론에 도달한다.

그럼에도 불구하고, 이러한 기하학적 차이는 모델의 실제 거절 행동에 큰 차이를 만들지 않는다. 저자들은 동일한 강도 α를 갖는 선형 스티어링을 각 방향에 적용했을 때, 위험 프롬프트에 대한 거절률은 상승하고, 무해 프롬프트에 대한 과잉 거절률도 동시에 증가한다. 즉, “거절 강도”라는 단일 스칼라 파라미터가 모든 방향에 대해 비슷한 효과를 나타내며, 이는 하나의 1차원 제어 노브가 존재한다는 실증적 증거다.

메커니즘을 더 깊이 파악하기 위해 저자들은 Sparse Autoencoders(SAE)를 활용한다. SAE는 잔차 스트림을 고차원 희소 라틴트(z)로 압축하고, 각 라틴트에 대응하는 디코더 방향(d) 를 통해 원래 활성화 공간으로 복원한다. 거절 라틴트를 식별하기 위해 “발화율 차이(Δ)”를 계산하고, 상위 K개의 라틴트를 선택한다. 이 라틴트들의 디코더 방향을 평균해 만든 SAE 기반 거절 방향은 활성화‑공간 방향과 거의 동일한 효과를 보이며, 동일한 스티어링 강도 β를 적용했을 때도 거절·과잉 거절 트레이드오프가 동일하게 나타난다.

흥미로운 점은 라틴트 집합이 두 부분으로 나뉜다. 대부분의 라틴트는 11개 카테고리 전반에 걸쳐 공유되어 “거절 코어”를 형성하고, 나머지 라틴트는 특정 스타일이나 도메인에 특화되어 있다. 따라서 “어떻게 거절하느냐”는 차이는 이 장기 라틴트들의 가중치 조합에 의해 결정된다. 저자들은 코어 라틴트를 시각화하고, 스타일 라틴트가 추가될 때 거절 문구가 더 완곡하거나, 사과형, 혹은 정책 기반 거절 등 다양한 어조로 변하는 것을 확인했다.

또한, 안전 방향을 제거(ablation)했을 때는 대부분의 모델에서 거절률이 크게 감소하지만, CoCoNot‑유도 방향을 제거해도 일정 수준의 잔여 거절이 남는다. 이는 모델 내부에 중복된 거절 경로가 존재함을 시사한다. Llama‑3.1‑8B‑Instruct는 안전 방향에 대한 억제 효과가 약해, 보다 복합적인 내부 구조를 가지고 있음을 보여준다.

결론적으로, 거절 행동은 하나의 선형 차원으로 제어 가능하지만, 그 내부 메커니즘은 다중 라틴트와 서로 다른 방향으로 구성된 복합적인 구조를 가진다. 이는 선형 해석이 거절 현상의 “양”을 설명하는 데는 충분하지만, “양식·톤”을 설명하려면 라틴트‑레벨의 세밀한 분석이 필요함을 의미한다.

거절 행동의 다면성 단일 방향을 넘어

초록

상세 분석

댓글 및 학술 토론

의견 남기기