Fourier 기반 대규모 멀티모달 모델 압축 LLaVA‑FA

Fourier 기반 대규모 멀티모달 모델 압축 LLaVA‑FA
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LLaVA‑FA는 대규모 멀티모달 모델의 가중치를 푸리에 변환 후 저‑랭크와 양자화를 공동 최적화함으로써 메모리와 연산량을 크게 줄이는 압축 기법이다. 복소수 행렬 전용 양자화인 PolarQuant와 선택적 대각 보정(ODC)을 도입해 재구성 오류를 최소화하고, 기존 방법보다 적은 활성 파라미터와 낮은 비트 비용으로 다양한 비전‑언어 벤치마크에서 우수한 성능을 달성한다.

상세 분석

본 논문은 대규모 멀티모달 모델(LMM)의 가중치 행렬이 공간 도메인에서 보이는 높은 상관성을 푸리에 변환을 통해 해소하고, 복소수 스펙트럼의 특성을 활용해 효율적인 압축을 수행한다는 핵심 아이디어를 제시한다. 푸리에 변환은 두 가지 중요한 수학적 성질을 제공한다. 첫째, 변환 후 계수들은 서로 거의 독립적인 형태로 재배열되어 singular value가 더 급격히 감소한다는 ‘de‑correlation’ 효과가 있다. 이는 동일한 랭크 r을 유지할 경우, 공간 도메인보다 푸리에 도메인에서의 Frobenius 오차가 작아짐을 이론적으로 증명한다(논문 Lemma 3.1). 둘째, 복소수 계수는 켤레 대칭(conjugate symmetry)을 만족하므로 전체 행렬의 절반만 저장해도 원본을 완전 복원할 수 있다. 이 두 특성을 결합하면, 기존 저‑랭크 적응(LoRA) 방식이 겪는 “저‑랭크와 양자화가 독립적으로 수행돼 양자화 노이즈를 고려하지 못한다”는 문제를 근본적으로 해결한다.

구체적인 압축 파이프라인은 다음과 같다. 원본 가중치 W를 2‑D 푸리에 변환하여 복소수 행렬 fW를 얻고, 이를 저‑랭크 행렬 eL₁·eL₂와 잔차 eQ로 분해한다. 저‑랭크 분해는 목표 랭크 r에 맞춰 Fourier‑SVD를 수행하고, 선택적으로 대각 보정(ODC)을 적용한다. ODC는 대규모 캘리브레이션 데이터 없이도 행·열 평균을 이용해 근사 Hessian을 구성, 랭크 선택 단계에서 양자화에 의한 손실을 사전에 보정한다. 잔차 eQ는 새롭게 설계한 PolarQuant를 통해 진폭 (br)과 위상 (bθ) 두 개의 독립적인 비트폭으로 양자화한다. 진폭‑위상 분리는 복소수 구조를 보존하면서 양자화 오류를 최소화하고, 켤레 대칭 덕분에 저장해야 할 복소수 계수는 전체의 절반만으로 충분하다.

비트 비용 분석에서는 전체 파라미터 7 개의 가중치 행렬에 대해 평균 비트 B_avg 공식을 도출한다. 저‑랭크 팩터는 전부 풀 프리시전(예: 16 bit)으로 유지하고, 백본 Q는 매우 낮은 비트(예: 2 bit)로 양자화한다면, 목표 랭크 k가 B_Q/B_L 비율보다 작을 경우 B_avg 이 풀 프리시전보다 현저히 낮아진다. 실험적으로 LLaVA‑FA는 70B 규모 모델을 0.25 % 데이터와 0.3 % 활성 파라미터만 사용해 훈련하면서도 기존 고성능 LMM(예: Qwen‑VL‑Chat, DeepSeek‑VL)과 비슷하거나 더 높은 정확도를 기록한다.

또한, 푸리에 기반 가중치 압축이 비전‑언어 어댑터(크로스‑모달 어댑터)에도 동일하게 적용 가능함을 보이며, 토큰 프루닝이나 구조 변경 없이도 ‘드롭‑인’ 방식으로 기존 모델에 바로 적용할 수 있다. 이는 멀티모달 시스템에서 이미지 인코더와 텍스트 디코더가 각각 별도의 파라미터 풀을 갖는 상황에서도 일관된 압축 효율을 제공한다는 점에서 의미가 크다. 마지막으로, 다양한 벤치마크(GQA, VQA, MMB, Hallucination‑oriented 테스트)에서 LLaVA‑FA가 기존 효율적 LMM(예: MiniCPM‑V, LLaVA‑1.5‑7B) 대비 5 ~ 10 % 이상의 성능 향상을 보이며, 계산량(CPU/GPU FLOPs)과 메모리 사용량을 절반 이하로 낮추는 결과를 제시한다.

요약하면, LLaVA‑FA는 푸리에 변환의 de‑correlation, 켤레 대칭, 에너지 집중 특성을 활용해 저‑랭크와 양자화를 하나의 최적화 문제로 통합하고, PolarQuant와 ODC라는 두 혁신적 모듈을 통해 복소수 가중치 압축을 실용적인 수준으로 끌어올렸다. 이는 대규모 멀티모달 모델을 실제 서비스 환경에 배포하기 위한 가장 효율적인 경로 중 하나로 평가될 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기