임베딩 모듈로 확장하는 트랜스포머
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
STEM은 FFN의 up‑projection을 레이어‑전용 임베딩 테이블로 교체하고, gate와 down‑projection은 그대로 유지하는 정적 토큰‑인덱스 방식이다. 런타임 라우팅을 없애 CPU 오프로드와 비동기 프리패치를 가능하게 하며, 파라미터 접근량을 1/3 정도 줄인다. 학습 안정성, 지식 저장 용량, 해석 가능성, 그리고 긴 컨텍스트에서의 테스트‑시간 스케일링까지 모두 향상시킨다. 350M‑1B 모델에서 평균 3‑4% 정확도 상승을 기록한다.
상세 분석
STEM은 기존의 Mixture‑of‑Experts(MoE)와 달리 “정적·토큰‑인덱스” 스파시티를 채택한다. 구체적으로, 각 디코더 레이어 ℓ에 대해 크기 V × d_ff인 임베딩 테이블 Uℓ을 준비하고, 입력 토큰 t의 숨겨진 상태 xℓ에 대해 yℓ = Wdℓ·(SiLU(Wgℓ xℓ) ⊙ Uℓ
댓글 및 학술 토론
Loading comments...
의견 남기기