주관적 깊이 변환기와 주관적 시간 스케일 변환기 베이지안 서프라이즈 기반 조건부 연산

표준 트랜스포머는 모든 토큰에 대해 동일한 양의 연산을 수행하므로 대규모 모델이나 긴 시퀀스에서 효율성이 떨어진다. 이를 해결하기 위해 저자는 베이지안 서프라이즈 신호를 이용해 언제, 어디서 연산을 수행할지를 학습하는 두 가지 구조인 주관적 깊이 변환기(SDT)와 주관적 시간 스케일 변환기(STT)를 제안한다. SDT는 결정 레이어와 동적 레이어를 교차시켜

주관적 깊이 변환기와 주관적 시간 스케일 변환기 베이지안 서프라이즈 기반 조건부 연산

초록

표준 트랜스포머는 모든 토큰에 대해 동일한 양의 연산을 수행하므로 대규모 모델이나 긴 시퀀스에서 효율성이 떨어진다. 이를 해결하기 위해 저자는 베이지안 서프라이즈 신호를 이용해 언제, 어디서 연산을 수행할지를 학습하는 두 가지 구조인 주관적 깊이 변환기(SDT)와 주관적 시간 스케일 변환기(STT)를 제안한다. SDT는 결정 레이어와 동적 레이어를 교차시켜 전체 블록의 사후 확률과 경량 사전 확률을 계산하고, 서프라이즈(예상·예상외 변화)를 기반으로 Top‑K 라우팅을 수행한다. STT는 전이 네트워크가 잔차 업데이트를 예측해 시간적 변화 가설을 만들고, 이를 라우터가 토큰별로 트랜스포머 블록을 실행하거나 건너뛰게 한다. 두 모델 모두 학습 초기에 새로움에, 이후에는 예측에 기반한 게이팅으로 전환되는 현상을 보이며, 연산량을 75 % 감소시키고 KV‑캐시 요구량을 50 % 절감한다.

상세 요약

이 논문은 트랜스포머 모델의 연산 효율성을 근본적으로 재고하려는 시도로, 기존의 “모두에게 동일한 연산을 강제한다”는 설계 철학에 근본적인 의문을 제기한다. 특히 대규모 언어 모델이 수십억 파라미터와 수천 토큰 길이의 입력을 처리하면서 발생하는 메모리·시간 병목을 완화하기 위해, 연산을 선택적으로 수행하는 조건부 컴퓨테이션 메커니즘을 도입한 점이 주목할 만하다.

SDT(Subjective Depth Transformer)의 핵심 아이디어는 두 종류의 레이어를 교차 배치한다는 것이다. ‘Decision 레이어’는 현재 입력에 대해 전체 블록의 사후 확률(posteri​or)과 경량 사전 확률(prior)을 동시에 추정한다. 여기서 베이지안 서프라이즈, 즉 ‘예상된 변화(Expected Change)’와 ‘예상외 변화(Unexpected Change)’를 정량화해, 어느 토큰이 실제로 새로운 정보를 제공하는지를 판단한다. 이후 ‘Dynamic 레이어’는 고정된 용량의 Top‑K 라우팅을 적용해, 서프라이즈가 높은 토큰에만 전체 블록 연산을 할당하고 나머지는 경량 경로를 통과시킨다. 이 과정은 그래프 구조를 고정시키면서도, 학습 과정에서 라우팅 정책 자체가 최적화되므로 하드웨어 구현이 비교적 용이하다.

STT(Subjective Timescale Transformer)는 시간 차원에서 조건부 연산을 확장한다. 전이 네트워크는 각 토큰의 현재 상태와 이전 KV‑캐시를 이용해 잔차(residual) 업데이트를 예측한다. 이 예측값을 ‘시간적 변화 가설’이라 부르고, 라우터는 이 가설이 일정 임계값을 초과하면 해당 토큰에 대해 전체 트랜스포머 블록을 실행하고, 그렇지 않으면 블록을 건너뛰어 KV‑캐시 업데이트를 최소화한다. 결과적으로 토큰이 이미 충분히 예측 가능한 경우에는 불필요한 self‑attention 연산을 생략함으로써 메모리와 연산량을 크게 절감한다.

실험 결과는 두 모델 모두 학습 초기에는 ‘새로움 중심’(novelty‑driven) 게이팅이 지배적이지만, 학습이 진행될수록 ‘예측 중심’(prediction‑driven) 게이팅으로 전이한다는 흥미로운 현상을 보여준다. 이는 베이지안 서프라이즈가 인간 인지에서 기대와 실제 사이의 차이를 통해 주의를 전환하는 메커니즘과 유사함을 시사한다. 또한, 연산량을 75 % 줄이면서도 기존 디코더‑전용 트랜스포머와 비교해 큰 정확도 손실 없이 성능을 유지한다는 점은, 조건부 컴퓨테이션이 실제 모델 배포 단계에서 비용 절감으로 직결될 수 있음을 입증한다.

하지만 몇 가지 한계도 존재한다. 첫째, Top‑K 라우팅의 K값 선택이 모델 성능과 효율성 사이의 트레이드오프에 큰 영향을 미치며, 자동 튜닝 메커니즘이 부재하다. 둘째, 서프라이즈 신호를 계산하기 위한 추가 파라미터와 연산이 존재하지만, 전체 절감량에 비해 상대적으로 작다. 셋째, 현재 실험은 주로 디코더‑전용 구조에 국한되어 있어, 인코더‑디코더 혹은 비전 트랜스포머와 같은 다른 아키텍처에 대한 일반화 가능성은 아직 검증되지 않았다.

종합적으로, 이 논문은 베이지안 서프라이즈를 활용한 동적 라우팅이라는 새로운 패러다임을 제시함으로써, 트랜스포머 모델의 효율성 향상에 중요한 방향성을 제시한다. 향후 연구에서는 라우팅 정책의 자동 최적화, 다양한 도메인에의 적용, 그리고 하드웨어 수준에서의 효율적인 구현 방안이 추가적으로 탐구될 필요가 있다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...