타이푼MLA 공유 프리픽스 활용 혼합 나이브앱소브 커널
초록
타이푼MLA는 MLA의 나이브와 앱소브 구현을 결합해 공유 프리픽스 영역에서는 계산 효율이 높은 나이브 방식을, 비공유 영역에서는 메모리 효율이 높은 앱소브 방식을 적용한다. 이를 통해 NPU와 GPU에서 최대 3.2배의 처리량 향상을 달성하면서 HBM 사용량은 3%만 증가시킨다.
상세 분석
본 논문은 최신 대형 언어 모델에서 채택된 Multi‑Head Latent Attention(MLA)의 두 가지 구현 방식, 즉 KV‑cache를 압축하지 않는 나이브(naive)와 압축된 형태로 유지하면서 업‑프로젝션을 쿼리와 출력 사이에 삽입하는 앱소브(absorb)의 장단점을 정밀히 분석한다. 나이브 구현은 연산량이 적고 GPU·NPU의 텐서 코어 활용도가 높아 학습·프리필 단계에서 효율적이지만, HBM에서 KV‑cache를 완전 복원해야 하므로 메모리 대역폭이 병목이 된다. 반면 앱소브 구현은 KV‑cache를 압축된 상태로 유지해 메모리 전송량을 크게 줄이지만, 쿼리 차원 확대와 추가 행렬 곱으로 인해 연산량이 증가해 계산 바인드가 된다. 기존 디코딩 커널은 메모리 바인드가 지배적인 상황에 최적화돼 앱소브만 사용했으며, 공유 프리픽스와 같이 여러 쿼리가 동일한 KV‑cache 구간을 재사용하는 경우에도 계산 효율을 높일 여지가 없었다.
타이푼MLA는 이러한 한계를 극복하기 위해 공유 구간과 비공유 구간을 명확히 구분한다. 공유 구간은 여러 쿼리가 동일하게 접근하므로 KV‑cache를 한 번만 읽어 나이브 방식으로 풀어낸 뒤, 압축되지 않은 K·V 텐서를 이용해 고속 행렬 곱을 수행한다. 비공유 구간은 기존 앱소브 방식대로 압축된 형태를 유지해 메모리 전송을 최소화한다. 논문은 이 두 흐름을 하나의 디코딩 파이프라인에 통합하는 알고리즘을 제시하고, 각 단계에서 필요한 메모리 읽기/쓰기 양과 MAC 연산 수를 정량적으로 분석한다. 특히 테이블 1에서 제시된 식을 통해 나이브와 앱소브 대비 타이푼MLA가 메모리 I/O는 감소하고 연산량은 적절히 배분됨을 증명한다. 또한 배치 크기가 작아 데이터 재사용 효과가 미미할 때는 자동으로 앱소브 전용 커널로 전환하는 폴백 메커니즘을 도입해 모든 상황에서 성능 저하를 방지한다.
실험 결과는 DeepSeek‑v3와 Kimi‑K2 모델을 대상으로 NPU와 GPU에서 수행했으며, 공유 프리픽스 길이가 10k~30k 토큰인 경우 토큰당 처리량이 최대 3.24배 향상되고 전체 시스템 스루풋이 1.48배 증가한다. 메모리 사용량은 3% 수준으로 미미하며, 기존 최적화 기법(PagedAttention, RadixAttention)과도 호환돼 기존 인프라에 손쉽게 통합할 수 있다. 이러한 결과는 MLA가 메모리와 연산 사이의 트레이드오프를 동적으로 조절함으로써, 특히 프리픽스 공유가 빈번한 엔터프라이즈 서비스와 멀티턴 대화 시나리오에서 실시간 응답성을 크게 개선할 수 있음을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기