LLM 압축을 위한 캘리브레이션 기반 희소 사전 학습

LLM 압축을 위한 캘리브레이션 기반 희소 사전 학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CoSpaDi는 사전 훈련된 대형 언어 모델의 가중치를 저‑랭크 SVD 대신, 밀집 사전과 열‑희소 계수 행렬의 곱으로 표현하는 훈련‑프리 압축 방법이다. 작은 캘리브레이션 데이터로 활성화 기반 그램 정규화를 수행해 기능적 출력 복원을 최소화하고, 변환된 가중치에 표준 희소 사전 학습을 적용한다. 층별 압축과 유사 층 간 사전 공유를 모두 지원하며, 20‑40 % 압축 비율에서 Llama·Qwen 모델군의 정확도·퍼플렉시티를 기존 SVD·프루닝 기반 방법보다 일관되게 향상시킨다.

상세 분석

CoSpaDi는 기존 포스트‑트레이닝 압축에서 널리 사용되는 저‑랭크 행렬 분해의 근본적인 한계를 짚고, “하나의 공유 서브스페이스” 가정이 서로 다른 컬럼(출력 채널) 간의 다양성을 충분히 포착하지 못한다는 점을 지적한다. 이를 해결하기 위해 저자는 ‘희소 사전 학습(sparse dictionary learning)’이라는 신호 처리 기법을 도입한다. 구체적으로, 각 가중치 행렬 W∈ℝ^{d1×d2}를 D∈ℝ^{d1×k}와 S∈ℝ^{k×d2}의 곱 DS 형태로 근사한다. 여기서 D는 밀집 사전이며, S는 각 컬럼당 최대 s개의 비제로 원소만을 갖는 열‑희소 행렬이다. 이 구조는 “union‑of‑subspaces” 모델을 구현해, 서로 다른 컬럼이 사전의 서로 다른 원자 집합을 조합해 재구성되도록 함으로써 동일한 파라미터 예산 내에서 표현력을 크게 확장한다.

핵심은 가중치 자체가 아니라 캘리브레이션 입력 X에 대한 출력 Z=XW를 보존하는 ‘활성화‑스페이스’ 목표를 최적화한다는 점이다. 이를 위해 저자는 XᵀX의 그램 행렬 G를 이용해 L이라는 정규화 행렬을 구하고, W̃=WL=L·W, D̃=LD 로 변환한다. 왼쪽에 열‑직교 행렬 Y=XL⁻¹을 곱함으로써 ‖XW−XDS‖₂² = ‖WL−DL·S‖₂² 로 변형되고, 이후 표준 희소 사전 학습(OMP + MOD/K‑SVD)으로 최적화한다. 최종 압축 가중치는 ˜W=Da·S, Da=L⁻¹·DL 로 복원된다. 이 과정은 캘리브레이션 데이터가 사전 학습 단계에만 사용되며, 추가 파라미터 튜닝 없이 교차‑층 사전 공유까지 자연스럽게 확장된다.

실험에서는 Llama‑2‑7B, Llama‑2‑13B, Qwen‑7B 등 다양한 모델에 20 %40 % 압축을 적용했으며, SVD‑LLM, Basis‑Sharing, Structured‑Pruning 등 최신 베이스라인과 비교했다. 대부분의 설정에서 CoSpaDi는 정확도 감소를 0.2 % 이하로 억제하면서 퍼플렉시티를 12 % 개선했다. 특히 열‑희소 구조가 2:4 혹은 4:8 같은 하드웨어 친화적 스파스 패턴과 매핑될 수 있어, 실제 추론 시 메모리 대역폭 절감과 연산 가속을 기대할 수 있다. 또한, 사전‑희소 계수 S에 대해 사후 양자화(PTQ)를 적용해 4‑bit 수준까지 압축 효율을 추가로 높일 수 있음을 보였다.

한계점으로는 사전 크기 k와 희소도 s를 선택하는 하이퍼파라미터 튜닝이 필요하고, OMP 기반 희소 코딩이 컬럼 수가 매우 큰 경우 메모리·시간 비용이 증가할 수 있다. 또한, 현재 구현은 Transformer의 Feed‑Forward와 Attention Projection에만 적용했으며, LayerNorm·Bias 등 다른 파라미터에 대한 확장은 아직 미탐색이다. 향후 연구에서는 자동화된 하이퍼파라미터 탐색, 하드웨어‑특화 스파스 매트릭스 커널 통합, 그리고 사전‑공유 전략을 더 넓은 모델 아키텍처에 일반화하는 방향이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기