블록 희소와 선형 주의 결합으로 장문맥 모델링 혁신

블록 희소와 선형 주의 결합으로 장문맥 모델링 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SPLA는 2차 테일러 전개 기반의 정밀 블록 선택과, 선택되지 않은 블록을 잔차 선형 주의(RLA)로 압축하는 하이브리드 구조를 제안한다. 선택 블록은 정확한 희소 어텐션으로 처리하고, 나머지는 전역 선형 어텐션에서 차감해 IO 비용 없이 전체 컨텍스트를 보존한다. 실험에서 256k 토큰까지 밀집 어텐션과 동등하거나 우수한 성능을 달성한다.

상세 분석

본 논문은 장문맥 디코딩 시 메모리‑바운드 병목을 해소하기 위해 블록 단위 희소 어텐션과 선형 어텐션을 결합한 SPLA 프레임워크를 제시한다. 핵심 아이디어는 두 단계로 나뉜다. 첫 번째는 입력‑쿼리 q에 대해 블록 k


댓글 및 학술 토론

Loading comments...

의견 남기기