대규모 언어 모델을 위한 실용적인 텐서 네트워크 압축 파이프라인

대규모 언어 모델을 위한 실용적인 텐서 네트워크 압축 파이프라인
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Minima는 경량 CNN으로 레이어·패치별 민감도를 예측하고, 저감도가 높은 영역에 Tucker·TT·TR 텐서 분해를 적용한 뒤 짧은 파인튜닝과 맞춤형 Triton·CUDA 커널로 실행한다. 이를 통해 Qwen3‑32B 모델의 피크 VRAM을 64 GiB에서 40 GiB로 줄이고, 단일 요청 시 TPS를 40에서 50으로, 투기 디코딩과 결합하면 75 TPS까지 끌어올렸다. 품질 저하는 퍼플렉시티 3 % 이하, 벤치마크 정확도 ±1 % 수준으로 유지된다.

상세 분석

Minima는 대규모 LLM 압축을 실서비스에 바로 적용할 수 있도록 설계된 5단계 파이프라인이다. 첫 단계인 민감도 예측에서는 얕은 CNN이 각 레이어를 작은 패치로 분할하고, 로컬 특이값 스펙트럼·조건수·가중치 희소도·위치 정보를 입력으로 받아 민감도 점수와 권장 압축 비율, 텐서 네트워크(TN) 종류(Tucker, TT, TR)를 출력한다. 이 접근법은 기존의 수작업 프로파일링을 대체해 20분 내에 전체 모델에 대한 압축 계획을 자동 생성한다는 점에서 혁신적이다.

두 번째 단계에서는 예측된 민감도에 따라 저감도가 높은 패치를 혼합형 TN으로 압축한다. Tucker는 중간 형태의 행렬에 적합하고, TT는 매우 길거나 얇은 행렬에, TR은 순환 구조가 자연스러운 경우에 사용한다. 각 패치마다 목표 압축률을 만족하도록 랭크를 조정함으로써 전체 파라미터를 35‑40 % 감소시키고, 피크 메모리를 37 % 절감한다.

세 번째 단계인 힐링 파인튜닝은 압축 후 발생하는 품질 손실을 최소화한다. 짧은 에포크(수천 배치) 동안 원본 데이터와 검증 셋을 사용해 손실 함수를 재조정함으로써 퍼플렉시티 상승을 3 % 이하로 억제한다.

네 번째 단계에서는 압축된 텐서 구조에 최적화된 Triton·CUDA 커널을 직접 구현한다. 기존 BLAS 기반 매트멀을 대체해 TN‑특화 연산을 메모리 친화적으로 재배열하고, 워프 수준의 병렬성을 활용해 연산 지연을 최소화한다. 결과적으로 압축만으로는 20 % 정도의 TPS 향상에 머물렀던 것이, 커널 최적화로 추가 10 % 상승을 달성한다.

마지막 단계인 투기 디코딩은 남은 VRAM을 활용해 작은 드래프트 모델을 실행하고, 압축된 검증 모델이 토큰을 검증하는 방식이다. 드래프트 모델이 먼저 후보 토큰을 생성하면 검증 모델이 배치 단위로 검증해 전체 토큰당 연산량을 크게 줄인다. 이 기법을 적용하면 단일 요청 TPS가 50 → 75로 1.5배 가량 상승한다.

실험 결과는 Qwen3‑32B(32 B 파라미터) 기준으로, 8 k 토큰 컨텍스트에서 피크 VRAM을 64 GiB→40 GiB로 감소시키고, 1 GPU 환경에서 40 TPS→50 TPS(압축+커널) 및 75 TPS(투기 디코딩)로 향상시켰다. 50개의 동시 요청에서도 동일한 비율의 스케일링을 보여, 높은 동시성에서도 압축 효과가 유지됨을 확인했다. 또한, 혼합형 TN 사용이 단일 TN보다 정확도·속도 모두에서 우수함을 Ablation 실험으로 입증했다.

Minima는 기존 저압축·양자화·공유 기반 방법과 달리, 구조적 텐서 압축과 런타임 최적화를 결합해 실서비스에 바로 적용 가능한 솔루션을 제공한다. 향후 전역 공유 텐서 백본과 레이어별 어댑터를 도입하면 압축 비율을 더욱 높일 수 있을 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기