멀티모달 LLM을 위한 계층적 적응형 KV 캐시 폐기 기법

멀티모달 LLM을 위한 계층적 적응형 KV 캐시 폐기 기법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 시각·텍스트 토큰의 주의 분포 차이를 활용해, 사전 채우기 단계에서는 시각 토큰을 선택적으로 제거하고, 디코딩 단계에서는 운영체제의 재활용 빈 개념을 도입한 동적 폐기 전략을 적용하는 Hierarchical Adaptive Eviction(HAE) 프레임워크를 제안한다. HAE는 KV‑Cache 메모리를 평균 41 % 절감하면서 정확도 손실을 0.3 % 이하로 억제하고, Phi‑3.5‑Vision‑Instruct 모델의 스토리 생성 속도를 1.5배 가속한다.

상세 분석

HAE는 멀티모달 대형 언어 모델(MLLM)에서 KV‑Cache가 차지하는 메모리와 연산 비용을 두 단계에 걸쳐 최적화한다. 첫 번째 단계인 사전 채우기(pre‑filling)에서는 Dual‑Attention Pruning(DAP)이라는 기법을 사용한다. 여기서는 시각 토큰 V와 텍스트 토큰 T 사이의 전역 주의 점수 A₍i,j₎를 집계해 각 시각 토큰의 전체 텍스트에 대한 평균 주의 Aⱼ를 계산한다. Aⱼ가 전체 시각 토큰 평균의 일정 비율 r 이하인 경우 해당 토큰을 ‘시각적 불필요 토큰’으로 판단하고, 추가로 각 시각 토큰이 개별 텍스트 토큰에 대해 보이는 최대 주의값이 임계값 α보다 작을 때만 최종 폐기 후보 C에 포함한다. 이렇게 선정된 시각 토큰은 첫 번째 레이어에서만 폐기하고, 그 인덱스를 모든 레이어에 브로드캐스트함으로써 레이어별 폐기 판단 비용을 없앤다. 이 설계는 첫 레이어에서 시각 토큰의 희소도가 가장 높다는 관찰(시각 토큰의 sparsity > 텍스트 토큰)과, 이후 레이어에서는 시각 토큰의 희소도가 더욱 증가한다는 사실에 기반한다. 따라서 초기 단계에서 불필요한 시각 정보를 대폭 줄이면, 전체 트랜스포머 스택에 걸쳐 KV 저장량이 균일하게 감소하고, 인덱스 전파만으로 연산 오버헤드가 최소화된다.

두 번째 단계인 디코딩(decoding)에서는 Dynamic Decoding Eviction Strategy(DDES)를 도입한다. 기존 Greedy 방식은 매 디코딩 스텝마다 가장 낮은 누적 주의 점수를 가진 KV를 즉시 삭제한다. 반면 DDES는 ‘Recycle Bin’이라는 버퍼를 두고, 누적 주의 점수가 낮은 토큰을 일시적으로 보관한다. 버퍼가 가득 차면 한 번에 다수의 KV를 폐기함으로써, 잠재적으로 다시 필요할 수 있는 정보를 일정 기간 보존한다. 점수 함수 S_c(C_j)=∑{t=1}^{k}σ_j·softmax(Q_t K{:j}^T /√d)+β(C_j)는 현재 토큰들의 쿼리와 각 KV 간의 유사도(softmax)와 이전 단계까지의 누적 주의 β를 결합한다. 이렇게 하면 시각·텍스트 양쪽의 중요도가 균형 있게 반영되며, 단순히 시각 토큰만을 목표로 하는 기존 방법보다 전반적인 성능 저하를 방지한다.

이론적 분석에서는 Theorem 2.1을 통해 폐기 임계값 k가 로그 형태의 조건을 만족하면 전체 손실 ∑ε_j가 허용 오차 ε 이하가 됨을 증명한다. Corollary 2.1은 각 폐기 단계에서 발생하는 주의 손실 ε_i의 합이 Greedy 방식보다 작다는 상한을 제시한다. 즉, HAE는 정보 무결성을 보장하면서도 더 낮은 오류 상한을 제공한다는 것이 수학적으로 입증된다.

실험에서는 LLaVA‑1.5‑7B와 Phi‑3.5‑Vision‑Instruct 두 모델을 대상으로 이미지 기반 QA(GQA, ScienceQA 등)와 장문 스토리 생성(Seed‑Story) 작업을 수행했다. KV‑Cache 메모리 사용량은 이미지 QA에서 평균 47 % 감소했으며, 성능은 원본 대비 97 % 수준을 유지했다. 스토리 생성에서는 1.5배 빠른 추론 속도와 함께 BLEU·ROUGE 등 자동 평가 지표에서 미세한 차이(≤0.2)만을 보였다. 또한, 시각 토큰 폐기 비율과 텍스트 토큰 보존 비율을 조절한 Ablation 실험에서 DAP와 DDES 각각이 독립적으로 메모리 절감과 정확도 유지에 기여함을 확인했다.

요약하면, HAE는 (1) 시각‑텍스트 주의 분포 차이를 정량화해 사전 단계에서 시각 토큰을 선택적으로 폐기하고, (2) 디코딩 단계에서 재활용 버퍼를 활용해 동적이고 균형 잡힌 폐기를 수행한다. 이 두 메커니즘은 KV‑Cache 메모리와 연산 비용을 크게 낮추면서도, 멀티모달 이해·생성 작업에서 성능 저하를 최소화한다는 점에서 기존 단일‑모달 혹은 Greedy 기반 폐기 기법을 능가한다.


댓글 및 학술 토론

Loading comments...

의견 남기기