트랜스포머는 세계를 분해한다: 직교 서브스페이스에서의 팩터화 표현

트랜스포머는 세계를 분해한다: 직교 서브스페이스에서의 팩터화 표현
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이 논문은 다음 토큰 예측을 통해 사전 학습된 트랜스포머가 입력 시퀀스를 조건부 독립적인 잠재 요인들로 분해하고, 각 요인을 잔차 스트림의 직교 서브스페이스에 인코딩한다는 가설을 제시한다. 이론적 프레임워크와 합성 데이터 실험을 통해 팩터화 표현이 차원 효율성을 제공하지만, 요인 간 의존성이 존재할 경우 예측 정확도는 손실될 수 있음을 보인다.

상세 분석

본 연구는 트랜스포머가 어떻게 세계를 ‘부분(part)’으로 나누어 내부 표현을 구성하는지를 정량적으로 규명한다. 저자들은 먼저 일반화된 히든 마코프 모델(GHMM)이라는 수학적 도구를 사용해 토큰 시퀀스가 잠재적인 다중 요인으로 생성된다고 가정한다. GHMM은 토큰마다 선형 연산자 T(x)를 적용해 잠재 상태를 전이시키며, 전체 시퀀스 확률은 초기 상태 η(∅)와 연속적인 전이 연산자의 곱으로 표현된다.

핵심은 ‘조건부 독립성’이다. 각 토큰에 대한 전이 연산자를 텐서곱 형태 T(x)=⊗ₙ Tⁿ(x) 로 분해할 수 있으면, 각 요인은 관측된 토큰을 조건으로 서로 독립적으로 진화한다. 이 경우 예측에 필요한 정보는 각 요인의 개별 예측 벡터 ηₙ(x₁:ℓ) 로 충분하며, 전체 예측 벡터는 이들의 텐서곱 η(x₁:ℓ)=⊗ₙ ηₙ(x₁:ℓ) 로 표현된다.

두 가지 가능한 표현 구조를 제시한다. (1) ‘조인(joint) 표현’은 전체 텐서곱 공간(차원 ∏ₙ dₙ−1)에서 예측 벡터를 직접 유지한다. 이는 손실이 없지만 차원이 기하급수적으로 커진다. (2) ‘팩터화(factored) 표현’은 각 요인의 예측 벡터를 직교 서브스페이스에 배치해 직합(direct‑sum) 형태로 저장한다. 차원은 ∑ₙ (dₙ−1) 로 선형적으로 감소한다. 조건부 독립성이 만족될 때는 팩터화 표현이 손실 없이 완전성을 유지한다(정리 2.3). 그러나 요인 간 상관관계가 남아 있으면 예측 벡터는 제품 상태(product‑state) 매니폴드에서 벗어나고, 팩터화 표현은 정보를 투사하면서 손실을 초래한다.

이론적 예측을 검증하기 위해 저자들은 다섯 개의 독립·조건부 독립·의존성 요인을 가진 합성 GHMM 데이터를 설계한다. 각 요인은 3‑state HMM(‘Mess3’) 혹은 3‑dimensional GHMM(‘Bloch Walk’)으로 구현되며, 토큰은 다섯 요인의 서브‑토큰 조합을 정수로 매핑해 관측한다. 실험에서는 다양한 모델 크기와 학습 단계에서 잔차 스트림의 PCA 분석, 서브스페이스 정규화, 그리고 요인별 선형 프로젝션을 수행해 차원, 직교성, 그리고 팩터화 선호도를 측정한다.

결과는 세 가지 주요 인사이트를 제공한다. 첫째, 조건부 독립적인 데이터에서는 트랜스포머가 실제로 ∑ₙ (dₙ−1) 차원의 직교 서브스페이스에 활성화를 집중한다. 둘째, 모델 용량이 충분히 커도(예: 12‑layer, 768‑dim) 조인 표현보다 팩터화 표현을 우선 선택한다는 강한 ‘팩터화 세계 가설(FWH)’을 확인한다. 셋째, 요인 간 의존성이 도입된 경우에도 초기 학습 단계에서는 여전히 팩터화 구조를 형성하고, 손실을 감수하면서도 차원 효율성을 추구한다. 이후 손실이 크게 증가하면 점진적으로 차원을 확장해 조인 형태에 가까워지는 과정을 보인다.

이러한 현상은 트랜스포머가 학습 목표(다음 토큰 교차 엔트로피)와 데이터의 잠재 구조 사이에서 ‘차원 효율성 vs. 예측 정확도’라는 트레이드오프를 자동으로 탐색한다는 점을 시사한다. 또한, 실제 자연어 데이터에서도 복잡한 구성 요소가 존재함을 고려하면, 트랜스포머 내부에 남아 있는 직교 서브스페이스는 해석 가능성(interpretability)과 모델 압축(모델 경량화) 연구에 유용한 단서를 제공할 가능성이 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기