답 토큰이 드러내는 회로 지문 변환기 내부 경로의 기하학적 인코딩

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 답 토큰 자체가 해당 토큰을 생성하는 회로의 기하학적 방향을 내포한다는 “회로 지문” 가설을 제시한다. 답 토큰을 단독으로 처리해 얻은 차이 벡터와 프롬프트 차이 벡터를 정렬함으로써, 기존의 그래디언트 기반 혹은 인과적 개입 없이도 회로 구성 요소를 식별할 수 있음을 보인다. 또한 동일한 방향을 이용해 모델 행동을 조절하는 스티어링을 수행했을 때, 감정 분류 정확도가 기존 프롬프트 기반 방법보다 크게 향상되는 등 실용적 효과도 입증한다.

상세 분석

이 논문은 변환기 모델의 메커니즘 해석과 행동 제어를 하나의 기하학적 프레임워크로 통합한다는 점에서 혁신적이다. 핵심 가설인 “회로 지문”은 답 토큰이 모델 내부에서 어떻게 생성되는지를 반영하는 고유한 방향 벡터가 존재한다는 전제에 기반한다. 구체적으로, 정답 토큰 a⁺와 오답 토큰 a⁻를 각각 독립적으로 모델에 입력하고 최종 레이어의 잔차 표현 r(L) 차이를 Δr(L)=r(L){a⁺}−r(L){a⁻} 로 정의한다. 이 차이는 해당 토큰 쌍을 구분하는 선형 서브스페이스를 나타내며, 회로 내에서 해당 정보를 전달하는 모든 컴포넌트는 이 방향에 정렬된 출력을 생성한다는 논리이다.

저자들은 이 방향을 각 컴포넌트의 고유 공간(Attention 헤드의 Q, K, V, MLP의 출력)으로 역투사하여 ˆt_c = W_c^T Δr(L) 로 변환한다. 이후 각 컴포넌트가 프롬프트 차이에 의해 생성하는 출력 차이 Δo_c와 ˆt_c의 내적을 통해 직접 기여도 S_c = ⟨Δo_c, ˆt_c⟩ 를 측정한다. 이 방식은 기존의 활성화 패칭이나 그래디언트 기반 중요도 추정과 달리 역전파 없이도 컴포넌트의 역할을 정량화한다.

또한, 단일 컴포넌트의 직접 기여도만으로는 전체 회로의 영향력을 완전히 설명할 수 없다는 점을 인식하고, 컴포넌트 간의 에지(정보 흐름)까지 확장한다. 각 헤드에 대해 Q, K, V 채널별로 Δk, Δq, Δv 를 잔차 스트림으로 역투사하고, upstream 컴포넌트 i가 downstream 헤드 j에 기여하는 비율 R_{K}^{i→j} 등을 정의한다. 여기서 Shapley 값을 이용해 Q, K, V 채널의 상대적 중요도를 공정하게 가중치화한다. Shapley 값 ϕ_Q, ϕ_K, ϕ_V는 모든 가능한 채널 조합에 대한 평균 마진 효과를 계산함으로써, 채널 간 상호작용을 정량화한다.

이러한 정량화 과정을 통해 전체 컴포넌트 중요도 T_c 를 재귀적으로 계산한다. 알고리즘은 최상위 레이어부터 시작해 각 컴포넌트의 직접 기여도와 하위 컴포넌트로부터 전달되는 간접 기여도를 합산한다. 결과적으로, 답 토큰 차이 벡터와 프롬프트 차이 벡터의 정렬만으로도 기존의 그래디언트 기반 회로 발견과 거의 동등한 구조를 복원한다는 것을 실험적으로 검증한다.

회로 발견 외에도, 동일한 기하학적 방향을 이용해 모델 행동을 스티어링한다. 예를 들어 감정 분류 태스크에서 “긍정”과 “부정” 토큰의 차이 벡터를 추출하고, 이를 잔차 스트림에 더함으로써 모델이 원하는 감정을 더 높은 확률로 출력하도록 유도한다. 실험 결과, 이 방법은 전통적인 프롬프트 기반 감정 유도(53.1% 정확도)보다 크게 향상된 69.8%의 정확도를 달성했으며, 사실성 유지에도 성공했다.

전반적으로 이 논문은 (1) 회로 구성 요소를 그래디언트 없이도 정밀하게 식별할 수 있는 기하학적 방법, (2) 동일한 기하학적 정보를 활용해 모델 행동을 효과적으로 제어할 수 있는 스티어링 메커니즘, (3) 두 접근법이 본질적으로 동일한 “읽기‑쓰기” 이중성을 공유한다는 이론적 통찰을 제공한다. 이는 메커니즘 해석과 제어를 별개의 연구 분야로 보던 기존 패러다임을 뒤흔들며, 향후 대규모 모델에 대한 효율적인 해석·제어 도구 개발에 중요한 기반을 제공한다.

답 토큰이 드러내는 회로 지문 변환기 내부 경로의 기하학적 인코딩

초록

상세 분석

댓글 및 학술 토론

의견 남기기