길이 제한 없는 KV 캐시 압축을 위한 유클리드 이상치 탐지
초록
ManifoldKV는 KV‑캐시 압축 시 토큰을 선택하는 점수를 코사인 대신 키 벡터와 전체 평균의 유클리드 거리(L2)로 계산한다. 짧은‑중간 컨텍스트(4K‑32K)에서는 20% 압축에도 95% 이상의 정확도를 유지하고, 다중 키 검색에서 방향 충돌을 크게 감소시킨다. 64K 이상의 초장 컨텍스트에서는 전역 평균이 의미를 잃는 ‘센터이드 희석’ 문제로 성능이 급락하는데, 이를 해결하기 위해 슬라이딩 윈도우별 로컬 평균을 사용하는 WindowedManifoldKV를 제안한다. 코드 3줄로 구현 가능하며 4가지 모델에 튜닝 없이 적용된다.
상세 분석
본 논문은 트랜스포머 기반 LLM의 KV‑캐시 메모리 사용량이 컨텍스트 길이에 비례해 선형 증가한다는 근본적인 한계를 지적한다. 기존의 기하학 기반 토큰 폐기 기법인 KeyDiff는 각 키 벡터와 전체 평균 µ 사이의 코사인 유사도를 이용해 ‘전형적인’ 방향을 가진 토큰을 제거한다. 그러나 코사인 유사도는 벡터의 크기(스칼라)를 완전히 무시하므로, µ와 동일한 방향이지만 크기가 크게 차이 나는 ‘방사형 이상치’를 구분하지 못한다. 실제로 중요한 엔터티나 숫자 토큰은 종종 평균 방향과 일치하면서도 크기가 비정상적으로 크거나 작다. 이러한 현상을 포착하기 위해 ManifoldKV는 s_i = ‖k_i – µ‖₂² 라는 L2 거리 기반 점수를 도입한다. L2 거리 식을 전개하면 ‖k_i‖₂² + ‖µ‖₂² – 2‖k_i‖₂‖µ‖₂cos(θ) 형태가 되며, 여기서 ‖k_i‖₂²(크기)와 cos(θ)(방향) 두 요소가 모두 반영된다. 따라서 방사형 이상치와 각도 이상치를 동시에 탐지할 수 있다.
실험에서는 RULER 벤치마크(4K‑128K 토큰, 6,497 샘플)에서 4K‑16K 구간에 20% 압축을 적용했을 때 ManifoldKV가 95.7% 정확도를 기록, 기존 기하학 기반 방법인 KeyDiff(81.1%)와 주목할 만한 격차를 보였다. 특히 3‑키 NIAH 과제에서 50% 압축 시 92.4% 정확도를 달성했으며, 이는 KeyDiff의 77.0% 대비 15.4 포인트 상승이다. 이는 다중 중요한 토큰이 동일한 방향을 공유하더라도 크기 차이로 구분될 수 있음을 입증한다.
그러나 64K 이상 초장 컨텍스트에서는 전역 평균 µ가 여러 의미 클러스터를 평균화하면서 ‘센터이드 희석’ 현상이 발생한다. 모든 토큰이 µ와 거의 동일한 거리를 갖게 되어 L2 점수의 차별력이 사라지고, 정확도가 35.2%로 급락한다. 이를 해결하기 위해 저자는 슬라이딩 윈도우(예: 4K)마다 로컬 평균 µ_w를 계산하고, 각 윈도우 내에서 L2 거리를 측정하는 WindowedManifoldKV를 제안한다. 로컬 평균은 의미적으로 일관된 토큰 집합을 대표하므로, 초장 컨텍스트에서도 토큰 중요도를 효과적으로 구분한다. 실험 결과, 64K 컨텍스트에서 25% 압축 시 정확도가 84.3%로 회복되었으며, 이는 전역 L2(35.2%) 대비 49 포인트, KeyDiff 대비 3.2 포인트 향상된 수치다.
알고리즘 복잡도는 O(N·d + N log N)으로, KV‑캐시 자체의 O(N²·d) 연산에 비해 무시할 수준이며, 실제 구현에서는 64K 컨텍스트에서 0.5ms 미만의 추가 지연만 발생한다. 또한 ManifoldKV는 3줄의 파이썬 코드(centroid 계산 → 거리 계산 → TopK 선택)로 구현 가능하고, Llama‑3.1‑8B, Llama‑2‑70B, Mistral‑7B, Gemma‑2B 등 네 가지 모델에 동일하게 적용돼 튜닝이 필요 없다는 점에서 실용성이 높다.
마지막으로 저자는 KV 키 벡터가 약 9차원 매니폴드에 존재한다는 실험적 근거를 제시한다. 이는 다양한 모델 간에 동일한 기하학적 구조가 공유된다는 의미이며, ManifoldKV가 모델‑불변적인 점수 함수를 제공함을 뒷받침한다. 전체적으로 이 논문은 KV‑캐시 압축에서 ‘크기’ 정보를 무시한 기존 코사인 기반 접근법의 한계를 명확히 규명하고, 간단하면서도 효과적인 L2 기반 점수와 윈도우화 전략을 통해 장기 컨텍스트에서도 높은 정확도를 유지하는 방법을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기