다시 생각해보는 다중모달 KV 캐시 압축: 주파수 영역을 통한 이방성 KV 인식 접근법

다중모달 대형 언어 모델은 시각적 입력 길이에 비례하여 다중모달 KV 캐시가 증가함으로써 상당한 추론 오버헤드를 겪습니다. 현재의 다중모달 KV 캐시 압축 방법들은 주로 관심 점수에 의존해 캐시 크기를 줄이는데, 이는 효율적인 관심 커널(예: FlashAttention)과 호환되지 않으며 값 벡터가 관심 출력에 기여하는 정도를 무시합니다. 본 연구에서는 다

다시 생각해보는 다중모달 KV 캐시 압축: 주파수 영역을 통한 이방성 KV 인식 접근법

초록

다중모달 대형 언어 모델은 시각적 입력 길이에 비례하여 다중모달 KV 캐시가 증가함으로써 상당한 추론 오버헤드를 겪습니다. 현재의 다중모달 KV 캐시 압축 방법들은 주로 관심 점수에 의존해 캐시 크기를 줄이는데, 이는 효율적인 관심 커널(예: FlashAttention)과 호환되지 않으며 값 벡터가 관심 출력에 기여하는 정도를 무시합니다. 본 연구에서는 다중모달 KV 캐시 압축을 KV 행렬의 분포 관점에서 재검토합니다. 먼저, 다중모달 KV 행렬의 주파수 영역 에너지가 저주파수에 집중되어 있음을 관찰하고 이를 저통과 필터를 통해 추출합니다. 또한, 이 주요 에너지로부터 크게 벗어난 KV 쌍을 제거하면 성능이 크게 떨어짐을 발견하며 이를 이방성 KV로 정의합니다. 이방성 KV가 추론에 중요한 특성을 인코딩할 가능성이 더 크다는 점을 고려해, 본 연구에서는 주파수 영역을 통한 이방성 KV 인식 접근법인 Flash-Cache를 제안합니다. 이를 위해 이방성 KV 인식 모듈과 동적 예산 할당 모듈을 도입하여 층별 KV 캐시 크기를 적응적으로 결정하고 더 많은 이방성 KV를 유지할 수 있도록 합니다. 여러 MLLMs 및 벤치마크에서의 실험은 Flash-Cache가 최신 다중모달 KV 압축 방법보다 우수한 성능을 보여주며, 80%의 KV 메모리 사용량 감소와 함께 최대 1.69배 빠른 디코딩을 달성함을 입증합니다.

상세 요약

이 논문은 다중모달 언어 모델에서 발생하는 큰 추론 오버헤드를 해결하기 위해 KV 캐시 압축 방법을 재검토하고 있습니다. 기존의 압축 방법들은 주로 관심 점수에 의존하여 캐시 크기를 줄이는데, 이는 효율적인 관심 커널과 호환되지 않으며 값 벡터가 관심 출력에 미치는 영향을 무시하는 문제점이 있습니다. 본 논문에서는 KV 행렬의 분포 관점을 통해 압축 방법을 재검토하고, 주파수 영역에서 에너지 분석을 수행하여 이방성 KV를 인식하고 이를 보존하는 방안을 제안합니다.

주요 아이디어는 다중모달 KV 행렬의 주파수 영역 에너지를 저통과 필터를 통해 추출한 후, 이 에너지로부터 크게 벗어난 KV 쌍(이방성 KV)을 인식하고 이를 보존하는 것입니다. 이러한 접근법은 이방성 KV가 추론에 중요한 특성을 인코딩할 가능성이 더 크다는 점을 고려하여, 압축 과정에서 성능 저하를 최소화하면서도 메모리 사용량을 크게 줄일 수 있습니다.

Flash-Cache는 이러한 아이디어를 구현한 KV 캐시 압축 프레임워크로, 이방성 KV 인식 모듈과 동적 예산 할당 모듈을 포함합니다. 이방성 KV 인식 모듈은 주파수 영역에서 KV 행렬의 주요 구성 요소를 모델링하고 이를 벗어나는 KV 쌍을 선호적으로 유지하는 역할을 합니다. 또한, 동적 예산 할당 모듈은 층별로 적응적인 KV 캐시 크기를 결정하여 더 많은 이방성 KV를 보존할 수 있도록 설계되었습니다.

실험 결과, Flash-Cache는 최신 다중모달 KV 압축 방법보다 우수한 성능을 보여주며, 80%의 KV 메모리 사용량 감소와 함께 최대 1.69배 빠른 디코딩 속도를 달성함을 입증하였습니다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...