KV 캐시 압축의 탐욕적 편향을 넘어 LASER KV 접근법
초록
본 논문은 KV‑cache 압축 시 주로 사용되는 주의(attention) 점수만을 토대로 하는 탐욕적 토큰 선택이 장기 컨텍스트에서 중요한 정보를 놓칠 수 있음을 지적한다. 저자들은 보호 나눔자 n을 도입해 블록 단위 누적 예산을 관리하고, 정확한 주의 점수와 Locality Sensitive Hashing(LSH)을 결합한 Exact‑LSH 선택 정책을 제안한다. Babilong 벤치마크에서 16k, 64k, 128k 토큰 길이까지 실험한 결과, 제안 방법(LASER‑KV)은 기존 SnapKV·FINCH·PyramidKV 등에 비해 64k 이상에서 성능 저하가 거의 없으며, 128k에서는 최대 10%p 정도의 정확도 향상을 보였다.
상세 분석
LASER‑KV는 기존 KV‑cache 압축 방법이 갖는 두 가지 근본적인 한계를 해결한다. 첫째, “탐욕적 편향”이라 불리는 현재 쿼리와의 즉각적인 주의 점수에만 의존하는 토큰 선택은 미래 쿼리에서 필요할 수 있는 구조적 연관성을 간과한다. 저자들은 이를 보완하기 위해 정확한 주의 점수(Exact)와 LSH 기반의 해시 충돌 확률(MagicPIG)을 혼합한 하이브리드 정책을 설계하였다. 정확한 주의 점수는 전체 레이어와 헤드에 걸친 합산 스코어를 사용해 ‘heavy hitter’ 토큰을 보존하고, LSH는 토큰 간의 잠재적 유사성을 해시 충돌 확률로 추정해 고리콜(high‑recall) 안전망을 제공한다. 이 두 기준을 비율 α 로 조정함으로써 메모리 예산 B 내에서 정밀도와 재현율 사이의 트레이드오프를 세밀하게 제어한다.
둘째, 블록 단위 누적 예산 관리에서 보호 나눔자 n은 최근 토큰과 장기 기억 토큰 사이의 비율을 명시적으로 조정한다. 전체 블록 예산 B를 ‘구문 집합’(2B/n)과 ‘리콜 예산’(B‑2B/n)으로 나누어, 구문 집합은 전역 앵커와 로컬 슬라이딩 윈도우에 각각 B/n 토큰을 할당한다. 이는 문법적 일관성과 초기 컨텍스트의 ‘attention sink’를 유지하면서도, 나머지 예산을 Exact‑LSH 정책에 할당해 장기 기억을 보존한다.
알고리즘 복잡도 측면에서, 정확한 주의 점수 계산은 O(L_q·|C|·d)이며, LSH 기반 해시 라운드는 O(|C|·R·d_h)와 O(|C|·R)의 메모리 오버헤드를 가진다. 이는 기존 Top‑K 기반 압축보다 약간 높은 연산량을 요구하지만, 블록 크기와 해시 라운드 수를 조절하면 실시간 추론 환경에서도 충분히 적용 가능하다.
실험에서는 Llama‑3.1‑8b‑Instruct와 1048k 확장 모델을 사용해 16k, 64k, 128k 컨텍스트 길이에서 다섯 가지 Babilong QA 태스크(QA1‑QA6)를 평가하였다. 16k에서는 Exact + MagicPIG(0.75) 조합이 가장 높은 정확도를 기록했고, 64k·128k에서는 LASER‑KV가 기존 방법에 비해 평균 7‑10%p의 정확도 향상을 보였다. 특히 128k에서 FINCH은 0%로 완전 붕괴되는 반면, LASER‑KV는 66%까지 유지해 장기 메모리 안정성의 중요성을 입증한다.
전체적으로 LASER‑KV는 “탐욕적 주의 점수만으로는 충분치 않다”는 가설을 실험적으로 검증하고, 보호 나눔자와 Exact‑LSH 혼합 정책을 통해 메모리 제한 하에서도 장기 컨텍스트를 효과적으로 보존한다는 점에서 의미가 크다. 향후 연구는 해시 함수 설계 최적화와 다양한 도메인(코드, 멀티모달)에서의 일반화 검증이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기