시각‑언어 모델을 위한 희소성 활용으로 효율성 극대화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다중 이미지 프롬프트를 처리하는 대형 시각‑언어 모델(VLM)에서, 이미지 간 상호작용이 거의 발생하지 않는다는 사실을 기반으로 정적 희소성 마스크를 설계한다. 헤드별로 Dense, Sink, Intra‑Image, Intra‑Image+Sink 네 가지 패턴을 오프라인으로 분류하고, 이를 토대로 Triton 기반 커스텀 스파스 어텐션 커널을 구현한다. 실험 결과, 36K‑300K 토큰 길이에서 어텐션 연산이 1.8‑3.2배 가속되며, 정확도 손실은 평균 0.78%에 불과하다.

상세 분석

BlindSight는 VLM의 어텐션 매트릭스가 이미지 토큰 사이에서 거의 상호작용하지 않는다는 관찰에서 출발한다. 저자들은 Qwen2‑VL, Qwen2.5‑VL, Gemma 3 등 여러 최신 모델을 대상으로 4개의 이미지가 포함된 프롬프트를 분석했으며, 특히 중간·상위 레이어에서 ‘inter‑image attention’ 비중이 급격히 감소함을 확인했다. 이를 기반으로 헤드별 희소성 패턴을 네 가지로 정의한다.

Dense Head – 전통적인 전부 연결 어텐션으로, 희소성이 거의 관찰되지 않는다.
Sink Head – 텍스트‑이미지 전환 지점 직후에 집중된 ‘sink’ 토큰(초기 토큰)만이 높은 어텐션을 받으며, 이미지 간 교차는 거의 없다.
Intra‑Image Head – 각 이미지 내부 토큰들끼리만 어텐션을 수행하고, 이미지 간 연결은 차단된다.
Intra‑Image+Sink Head – Intra‑Image 패턴에 sink 토큰을 추가해, 이미지 내부와 초기 토큰 간의 제한된 교차만 허용한다.

패턴 식별은 두 단계로 이루어진다. 첫 단계인 Prompt‑Level Characterization에서는 특정 프롬프트에 대해 각 헤드마다 후보 마스크(위 네 가지)를 적용해 정규화 평균 제곱오차(NMSE)를 계산한다. NMSE가 사전 정의된 임계값 α보다 작고 FLOPs 감소가 가장 큰 마스크를 선택한다. 두 번째 단계인 Dataset‑Level Aggregation에서는 다수의 프롬프트(논문에서는 MMIU 벤치마크)를 대상으로 위 과정을 반복하고, 각 레이어·헤드별로 가장 빈번히 선택된 패턴을 최종 마스크로 채택한다. 이때 Dense 패턴이 일정 비율(γd) 이상 선택되면 안전성을 위해 Dense를 유지하고, 그렇지 않으면 Sink, Intra‑Image, Intra‑Image+Sink 순으로 우선순위를 둔다.

희소성 마스크를 실제 추론에 적용하기 위해 저자들은 Triton으로 구현된 커스텀 어텐션 커널을 설계했다. FlashAttention과 유사하게 입력을 타일 단위로 분할하고, 각 타일에 맞는 서브루틴(완전 밀집, Sink 전용, Intra‑Image 전용, 복합) 중 하나를 선택한다. 타일이 완전히 희소한 경우 연산을 건너뛰어 메모리 대역폭과 연산량을 크게 절감한다.

실험에서는 프롬프트 길이가 36K에서 300K 토큰에 이르는 상황에서 BlindSight 커널이 기존 FlashAttention 대비 1.8‑3.2배 빠른 어텐션 처리 속도를 보였으며, 전체 모델 추론 시간도 비슷한 비율로 단축되었다. 정확도 측면에서는 다중 이미지 이해 벤치마크(MMIU, MME 등)에서 평균 0.78%p 이하의 손실만을 기록했다. 또한, 모델 크기와 아키텍처에 관계없이 Qwen2‑VL(7B), Qwen2.5‑VL(32B), Gemma 3(12B) 등에서 일관된 효율성을 확인했다.

마지막으로 저자들은 BlindSight가 정적 희소성 마스크와 동적 토큰 압축 기법을 결합하면 더욱 큰 효율성을 얻을 수 있음을 제시하고, 향후 VLM 설계 시 ‘희소‑밀집 혼합 레이어’를 도입해 하드웨어 친화적인 구조를 만들 것을 제안한다.

시각‑언어 모델을 위한 희소성 활용으로 효율성 극대화

초록

상세 분석

댓글 및 학술 토론

의견 남기기