제로합 선형 어텐션으로 효율적인 트랜스포머 구현

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 선형 어텐션이 갖는 “볼록 조합”과 “균등 가중치 편향”이라는 두 근본적 한계를 분석하고, 소위 0차 항 (1/t) 을 제거한 제로‑합(Zero‑Sum) 가중치를 도입한다. 이를 통해 양·음의 가중치를 허용하고, 단일 어텐션 레이어가 대비 연산을 수행하도록 함으로써 표현력을 크게 확대한다. 제로합 선형 어텐션(ZeroS)은 (O(N)) 복잡도를 유지하면서도 이론적·실험적으로 기존 소프트맥스 어텐션과 동등하거나 우수한 성능을 보인다.

상세 분석

ZeroS 논문은 먼저 선형 어텐션이 소프트맥스 어텐션과 동일하게 (O(N)) 시간 복잡도를 목표로 하지만, 실제 성능이 뒤처지는 근본 원인을 두 가지로 규정한다. 첫 번째는 “볼록 조합” 제한이다. 소프트맥스는 항상 양의 확률 분포를 만들기 때문에 출력은 입력 값 벡터들의 볼록 껍질 안에 머문다. 이는 가중치가 모두 양수이므로 정보의 “덧셈”만 가능하고, 뺄셈이나 대비(contrast) 연산을 직접 구현할 수 없으며, 복잡한 관계를 표현하려면 여러 레이어를 겹쳐야 한다. 두 번째는 “균등 가중치 편향”이다. 소프트맥스 전개식 (\exp(q\cdot k)=1+\langle q,k\rangle+\frac12\langle q,k\rangle^2+\dots) 에서 0차 항 (1) 은 모든 토큰에 동일한 평균‑풀링 효과를 부여한다. 긴 시퀀스에서는 이 평균 성분이 누적되어 실제 유용한 상호작용을 희석한다.

이 두 문제를 동시에 해결하기 위해 저자들은 0차 항을 완전히 제거하고, 남은 잔차 (\epsilon_{t,i}) 와 1차 편차 (\delta_{t,i}) 를 재가중하는 “제로‑합 소프트맥스”를 정의한다. 수식적으로는
\

제로합 선형 어텐션으로 효율적인 트랜스포머 구현

초록

상세 분석

댓글 및 학술 토론

의견 남기기