LLM 토큰 영향 분석을 위한 Jacobian Scopes

LLM 토큰 영향 분석을 위한 Jacobian Scopes
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 다음 토큰 예측에 가장 큰 영향을 미치는 입력 토큰을 정량화하는 새로운 기법인 Jacobian Scopes를 제안한다. Jacobian Scopes는 모델의 출력 로짓, 전체 확률 분포, 그리고 예측 불확실성(효과적 온도)이라는 세 가지 설명 대상에 대해 각각 Gradient‑Jacobian 벡터 투영을 이용해 토큰 수준 인과 기여도를 계산한다. Semantic Scope, Fisher Scope, Temperature Scope라는 세 변형을 통해 정치적 편향, 번역 전략, 시계열 인‑컨텍스트 학습 등 다양한 사례 연구를 수행하고, LAMBADA·IWSLT 데이터셋에서 기존 기법과 비교한 정량적 평가에서도 경쟁력 있는 성능을 보인다. 구현 코드는 오픈소스로 제공되며, HuggingFace 데모를 통해 사용자가 직접 탐색할 수 있다.

상세 분석

Jacobian Scopes는 LLM의 입력 임베딩 xₜ와 최종 은닉 상태 y 사이의 Jacobian Jₜ = ∂y/∂xₜ 를 기반으로 한다. 전체 Jacobian을 구하면 계산 비용이 d_model × d_model 이 되지만, 실제로는 관심 있는 출력 방향 v 에 대한 벡터‑Jacobian 곱 vᵀJₜ 만을 계산한다. 이 스칼라 값의 L2 노름 ‖vᵀJₜ‖₂ 를 토큰 t 의 영향력 점수로 정의하고, 자동 미분을 통해 단일 역전파 단계로 전체 시퀀스에 대한 점수를 얻는다.

세 가지 스코프는 각각 다른 v 를 선택한다.

  1. Semantic Scope: v = w_target (목표 토큰의 임베딩) 로 설정해 특정 토큰 로그잇에 대한 민감도를 측정한다. 이는 토큰 t 가 목표 로그잇을 얼마나 크게 변화시킬 수 있는지를 직접적으로 보여준다. 실험에서는 “truthful” → “deceive” 같은 비직관적 연관성을 드러내어 모델의 내재된 편향을 시각화한다.
  2. Fisher Scope: v 를 Fisher 정보 행렬 F 의 주축(최대 고유값에 대응하는 고유벡터 u₁) 로 정의한다. F = Wᵀ diag(p) − ppᵀ W 로부터 얻어지는 u₁ 은 확률 분포 전체가 가장 민감하게 변하는 방향을 의미한다. 따라서 ‖u₁ᵀJₜ‖₂ 은 입력 토큰이 전체 예측 분포에 미치는 영향을 포괄적으로 평가한다. 번역 실험에서 원문 단어와 대응 번역어 사이의 직접적인 연관성을 정량화하는 데 유용했다.
  3. Temperature Scope: v = ŷ (정규화된 은닉 벡터) 로 설정해 은닉 상태의 노름 β_eff =‖y‖₂, 즉 효과적 역온도에 대한 민감도를 측정한다. Gaussian‑like 예측 분포에서 β_eff⁻¹ 은 분산에 비례하므로, 이 스코프는 예측 불확실성을 제어하는 입력 토큰을 밝혀준다. 시계열 ICL 과제에서 과거 패턴과 현재 예측의 불확실성 사이의 관계를 해석하는 데 활용되었다.

정량적 평가에서는 LAMBADA와 IWSLT 2017 DE→EN 데이터셋에 대해 AOPC(Area Over Perturbation Curve) 지표를 사용했다. Jacobian Scopes는 Random Ablation과 Integrated Gradients보다 우수하고, Input×Gradient와 비슷한 수준의 성능을 보였다. 이는 1차 미분 기반 인과 추정이 실제 토큰 제거 실험과 높은 상관성을 가짐을 시사한다.

한계점으로는 선형 근사에 기반한 지역적 인과 해석이라는 점, 모델 내부 구조를 무시하는 ‘architecture‑blind’ 특성, 그리고 역전파 비용이 존재한다는 점을 언급한다. 특히 Temperature Scope에서 관찰된 초기 토큰의 과도한 영향은 ‘attention sink’ 현상과 연관될 수 있음을 지적한다. 향후 연구는 Jacobian Jₜ와 Fisher F 의 스펙트럼을 분석해 새로운 설명 대상을 발굴하거나, 비선형·전역적 인과 분석과 결합하는 방향을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기