프리즘 스펙트럼 인식 블록 스파스 어텐션
초록
블록‑스파스 어텐션에서 블록 중요도 추정을 위해 흔히 사용하는 평균 풀링이 Rotary Positional Embedding(RoPE)와 결합될 때 고주파 성분을 소멸시키는 저역통과 필터 역할을 함을 이론적으로 증명한다. 이를 보완하기 위해 고주파와 저주파를 별도 분기로 처리하고, 에너지 기반 온도 보정으로 손실된 신호를 복원하는 훈련‑무료 방법인 Prism을 제안한다. 블록‑레벨 연산만으로 정확한 중요도 추정을 가능하게 하여 전체 어텐션 대비 최대 5.1배 가속을 달성한다.
상세 분석
본 논문은 장문 컨텍스트를 처리하는 대형 언어 모델(LLM)에서 사전 채우기(pre‑filling) 단계의 계산량을 줄이기 위한 블록‑스파스 어텐션의 핵심 문제, 즉 “블록 중요도 추정”에 집중한다. 기존 방법들은 토큰 수준의 정밀 검색을 회피하기 위해 블록을 평균 풀링(mean pooling)으로 압축하고, 압축된 벡터들 간의 coarse‑grained attention을 이용해 상위 k 블록을 선택한다. 그러나 RoPE가 각 차원에 서로 다른 회전 주파수를 부여한다는 사실을 간과하면, 평균 풀링은 고주파 차원에서 위상 상쇄(interference)를 일으켜 신호 크기를 거의 0에 가깝게 만든다. 논문은 이를 수학적으로 전개하여, 평균 풀링이 실제로는 저역통과 필터(low‑pass filter)이며, 고주파 대역(‘Blind Spot’)에서 위치 정보를 완전히 소실한다는 것을 증명한다(식 6‑7). 실험적으로 Qwen‑3‑8B 모델의 RMS norm을 토큰 레벨과 블록 레벨에서 비교한 결과, 고주파 대역의 에너지가 평균 풀링 후 급격히 감소함을 확인한다.
이러한 현상을 해결하기 위해 Prism은 두 개의 독립적인 분기를 도입한다. 첫 번째 분기는 고주파 차원(인덱스가 낮은 부분)을 별도로 슬라이스하고, 두 번째 분기는 저주파 차원(인덱스가 높은 부분)을 슬라이스한다. 각각에 대해 블록‑레벨 평균 풀링을 수행한 뒤, 에너지 기반 온도 보정(energy‑based temperature calibration)을 적용한다. 온도 보정은 각 대역의 평균 에너지 분포를 이용해 스케일링 파라미터를 자동으로 추정하므로 별도의 하이퍼파라미터 튜닝이 필요없다. 이렇게 복원된 고주파 신호는 슬래시 패턴과 같은 미세한 상대 위치 정보를 보존하고, 저주파 신호는 전역 의미적 연관성을 유지한다. 최종적으로 두 대역의 스코어를 합산해 블록 마스크를 생성함으로써, 토큰‑레벨 검색 없이도 정확한 블록 선택이 가능해진다.
성능 평가에서는 PG‑19, LongBench, RULER, VideoMME 등 다양한 장문 벤치마크에서 Prism이 전체 어텐션과 거의 동일한 정확도를 보이며, FlashAttention 기반의 완전 어텐션 대비 128K 토큰에서 최대 5.1배의 속도 향상을 달성한다. 또한, 선택 오버헤드가 크게 감소해 중간 길이(예: 32K~64K)에서도 기존 블록‑스파스 방법보다 전체 파이프라인이 더 빠르게 동작한다.
요약하면, 본 논문은 RoPE와 평균 풀링 사이의 스펙트럼 상호작용을 최초로 이론화하고, 이를 기반으로 고주파 손실을 복원하는 훈련‑무료 블록‑스파스 어텐션 프레임워크인 Prism을 제시함으로써, 장문 LLM의 효율성을 크게 향상시켰다.
댓글 및 학술 토론
Loading comments...
의견 남기기