와일드캣: 이론과 실무를 잇는 거의 선형 주의 메커니즘

와일드캣: 이론과 실무를 잇는 거의 선형 주의 메커니즘
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

와일드캣은 무작위 피벗 첼시와 최적 가중 코어셋을 이용해 소프트맥스 어텐션을 근사한다. 입력이 유계일 때, 근사 오차가 $O!\left(n^{-\sqrt{\log\log n}}\right)$ 로 초다항적으로 감소하면서 실행 시간은 $O!\left(n^{1+o(1)}\right)$ 로 거의 선형이다. GPU 최적화 구현과 이미지·언어 모델 실험에서 기존 근사 방법들을 능가한다.

상세 분석

와일드캣의 핵심 아이디어는 어텐션 행렬 $A_{il}=e^{\beta\langle q_i,k_l\rangle}$ 를 저‑랭크 형태 $U W$ 로 근사하고, 이를 다시 소프트맥스 연산에 적용하는 것이다. 저‑랭크 근사는 Nyström 방법을 기반으로 하며, 여기서 코어셋 $S\subset


댓글 및 학술 토론

Loading comments...

의견 남기기