다음 토큰 예측에서 나타나는 겉보기에 쓸모없는 특징들의 발생 메커니즘

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 차례대로 마스크된 트랜스포머가 다음 토큰 예측(NTP) 목표만으로도 즉시 예측에 필요하지 않은 추상적 특징들을 어떻게 학습하는지를 밝힌다. 저자는 그래디언트 흐름을 “직접 학습”, “프리‑캐싱”, “회로 공유”의 세 경로로 분해하고, 각 경로가 특정 특징의 형성에 미치는 영향을 정량화하는 방법을 제안한다. toy task, OthelloGPT, 소규모 언어 모델, 그리고 대형 사전학습 모델에 적용해 결과를 검증한 뒤, 코드와 같은 형식적 추론 영역에서 매우 높은(또는 낮은) 영향력을 가진 특징들이 존재함을 발견한다.

상세 분석

이 논문은 트랜스포머가 NTP 목표만으로도 “NTP‑useless”라 불리는 특징을 학습하는 현상을 세 가지 그래디언트 경로로 설명한다. 첫 번째인 직접 학습(direct learning)은 현재 토큰의 잔차 스트림 rₖᵢ가 바로 다음 토큰 예측 손실에 기여하는 전통적인 경로이며, 이는 ∇θLᵏᵢ(direct)=∇θLᵢ−∇θLsg(k,i)ᵢ 로 정의된다. 두 번째인 프리‑캐싱(pre‑caching)은 미래 토큰 j>i+1의 예측 손실이 현재 위치 i의 잔차 스트림을 통해 역전파되는 경로로, ∇θLᵏᵢ(pre‑cached)=∑_{j≥i}∇θL_j−∇θLsg(k,i)_j 로 표현된다. 이 경로는 어텐션 헤드가 과거 토큰을 조회하면서 정보를 전달하기 때문에, 현재 토큰이 즉시 필요하지 않은 정보를 미리 계산해 두는 메커니즘을 제공한다. 세 번째인 회로 공유(circuit sharing)는 현재 위치 i의 잔차 스트림을 전혀 거치지 않는 경로이며, 동일 파라미터가 여러 위치에서 재사용되면서 간접적으로 영향을 미친다; 이는 ∇θLᵏᵢ(shared)=∑_j∇θLsg(k,i)_j 로 나타난다.

저자는 이 세 경로를 명시적으로 분리한 뒤, 각 경로가 특정 특징 wₖᵢ의 형성에 얼마나 기여했는지를 “영향력”(influence)이라는 양으로 측정한다. 특징 불일치 R(x|θ₁,θ₂,wₖᵢ)=½‖⟨wₖᵢ,rₖ^{θ₁,i}(x)⟩−⟨wₖᵢ,rₖ^{θ₂,i}(x)⟩‖² 를 정의하고, 한 스텝 업데이트 G에 대해 I(θ,x|wₖᵢ,θ*,G)=∂R/∂ε|_{ε=0} 로 미분한다. 이를 통해 직접, 프리‑캐시, 공유 세 구성요소 각각에 대한 통합 영향력 eI_direct, eI_pre‑cached, eI_shared 를 구한다.

실험에서는 먼저 Majority와 Conditioned Majority라는 두 toy task에 대해 2‑layer GPT‑2‑like 모델을 학습시켰다. 여기서 프리‑캐시와 회로 공유를 차단한 myopic·untied 설정을 도입해 각 경로의 기여도를 검증하였다. 결과는 프리‑캐시와 회로 공유가 없을 경우 NTP‑useless 특징의 선형 탐지 성능이 크게 떨어짐을 보여, 두 메커니즘이 복잡한 논리 구조(예: induction head)와 장기 의존성 학습에 필수적임을 증명한다.

다음으로 OthelloGPT에 적용해 보드 상태의 “world model”이 어떻게 형성되는지 분석했다. 특정 보드 위치는 현재 수에 직접적인 영향을 주지 않음에도 불구하고, 프리‑캐시와 회로 공유를 통해 미래 수를 예측하는 데 사용되는 특징으로 성장한다. 특히, 프리‑캐시 영향력이 높은 위치는 게임 진행 중 급격히 변하는 패턴을 포착하고, 회로 공유는 다른 위치에서 학습된 전략을 전파한다.

마지막으로 1.3B 파라미터 규모의 사전학습 LLM에 동일 프레임워크를 적용했으며, 코드 토큰, 수학 기호, 논리 연산 등 형식적 추론 영역에서 매우 높은 eI_pre‑cached 혹은 eI_shared 값을 가진 특징들을 발견했다. 이는 모델이 단순히 다음 토큰을 맞추는 것 이상으로, 장기적인 구조적 규칙을 미리 계산해 두는 “예측적 사전 연산”을 수행한다는 강력한 증거가 된다.

전체적으로 논문은 그래디언트 흐름을 정량적으로 분해함으로써, 트랜스포머가 왜 그리고 어떻게 NTP‑useless 특징을 학습하는지에 대한 이론적·실험적 근거를 제공한다. 제안된 영향력 측정법은 향후 모델 해석, 사전학습 목표 설계, 그리고 불필요한 복잡성을 억제하는 훈련 전략 개발에 활용될 수 있다.

다음 토큰 예측에서 나타나는 겉보기에 쓸모없는 특징들의 발생 메커니즘

초록

상세 분석

댓글 및 학술 토론

의견 남기기