주파수 기반 KV 캐시 압축으로 컨텍스트 윈도우 256K까지 확장

주파수 기반 KV 캐시 압축으로 컨텍스트 윈도우 256K까지 확장
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FreqKV는 키‑값(KV) 캐시를 이산코사인변환(DCT)으로 주파수 영역에 매핑한 뒤, 저주파 성분만 보존하고 고주파를 제거하는 파라미터‑프리 압축 방법이다. 반복적인 압축을 통해 캐시 크기를 절반으로 줄이면서도 초기 토큰은 그대로 유지한다. 8K 길이에서 최소 fine‑tuning만 수행하면 LLaMA‑2‑7B의 컨텍스트 윈도우를 256K 토큰까지 확장해도 퍼플렉시티가 크게 상승하지 않는다. 실험은 사전‑채우기와 디코딩 모두에서 기존 토큰‑삭제 기반 압축 기법을 능가함을 보여준다.

상세 분석

본 논문은 LLM의 KV 캐시가 시간(시퀀스) 차원에서 높은 차원의 정보를 담고 있지만, 실제로는 저주파 성분에 대부분의 의미적 정보를 집중한다는 실증적 관찰에서 출발한다. 저자들은 1000개의 CNN/DailyMail 문서를 LLaMA‑2‑7B에 입력하고, 각 레이어의 K와 V 행렬에 대해 DCT를 수행해 평균 파워 스펙트럼을 계산하였다. 결과는 레이어가 깊어질수록 저주파 성분의 에너지 비중이 급격히 증가함을 보여준다. 이는 Transformer 디코더가 토큰 간 장거리 의존성을 점차 강화하면서 고주파(세부) 정보는 점점 감소한다는 기존 “Frequency Principle”과 일맥상통한다.

이를 검증하기 위해 저주파(하위 50%)와 고주파(상위 50%)를 각각 보존·제거한 뒤, 동일 입력에 대한 KV 상태의 코사인 유사도를 측정하였다. 저주파만 남겼을 때는 원본과 높은 유사도를 유지했지만, 고주파만 남기면 급격히 감소하였다. 또한 LongBench 요약 태스크에서 저주파만 보존했을 때는 ROUGE 점수가 2527점대로 크게 향상되는 반면, 고주파만 보존하면 1416점 수준에 머물렀다. 이는 저주파가 전역 의미와 장거리 의존성을, 고주파가 국소 세부 정보를 담당한다는 해석을 뒷받침한다.

FreqKV는 이러한 특성을 활용해 KV 캐시를 DCT → 고주파 차단 → IDCT 순으로 압축한다. 보존 비율 γ를 0.5로 설정하면 캐시 크기가 절반으로 감소하고, 압축된 KV는 원래 위치 인덱스를 유지한 채 RoPE와 결합되어 자기‑어텐션에 사용된다. 초기 S(예: 4)개의 “sink” 토큰은 압축 대상에서 제외해, 모델이 가장 중요한 초기 컨텍스트를 그대로 접근하도록 설계되었다. 압축은 캐시가 가득 찰 때마다 한 번씩 수행되며, DCT와 IDCT의 복잡도는 O(N log N)으로 전체 추론 비용에 미치는 영향이 미미하다.

실험에서는 LLaMA‑2‑7B/13B와 LLaMA‑3‑8B에 FreqKV를 적용하고, 8K 길이에서 12 epoch 정도의 미세조정만 수행했다. 결과는 다음과 같다. (1) 컨텍스트 길이가 256K까지 늘어나도 퍼플렉시티 상승이 0.20.4 수준에 그쳤으며, 기존 SnapKV·PyramidKV 등 토큰 삭제 기반 방법보다 10~15% 낮은 퍼플렉시티를 기록했다. (2) LongBench, RULER, Needle‑in‑a‑Haystack 등 이해 중심 벤치마크에서 FreqKV는 저주파 보존 덕분에 전반적인 정확도와 재현율이 크게 개선되었다. (3) LongGenBench 같은 생성 벤치마크에서도, 압축된 KV를 사용한 디코딩이 토큰 품질을 유지하면서도 메모리 사용량을 절반 이하로 감소시켰다.

또한, 저자들은 RoPE와의 호환성을 상세히 논의한다. 키 벡터는 압축 전 RoPE를 적용하지 않고, 압축 후에 인덱스가 재배치된 위치에 맞춰 다시 RoPE를 적용한다. 이는 기존 위치 외삽 문제를 회피하면서도 절대적인 위치 정보를 보존한다는 장점을 제공한다.

전체적으로 FreqKV는 파라미터‑프리, 아키텍처‑독립적인 방법으로, 기존 KV 압축 기법이 겪는 “정보 손실 → 성능 급락” 문제를 근본적으로 해결한다. 저주파 중심의 정보 보존이라는 직관적 yet 이론적으로 뒷받침되는 접근은, 향후 LLM의 장기 메모리 확장 연구에 새로운 패러다임을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기