CLIP 압축을 위한 매핑 기반 구조 행렬 변환
초록
**
본 논문은 기존의 가중치 선택 기반 프루닝이 초고압축 시 성능 저하를 초래하는 문제를 해결하고자, 학습 가능한 매핑 행렬을 이용해 원본 CLIP 가중치를 전면 매핑하고 크로네커 분해로 파라미터 효율성을 높이는 CLIP‑Map 프레임워크를 제안한다. 대각선 상속 초기화와 지식 증류를 결합한 두 단계 학습 파이프라인을 통해 다양한 압축 비율에서 선택 기반 방법을 능가하며, 특히 극단적인 압축 상황에서도 경쟁력 있는 성능을 유지한다.
**
상세 분석
**
CLIP‑Map은 “선택‑기반 프루닝”과 “매핑‑기반 압축”이라는 두 축을 명확히 구분한다. 기존 프루닝은 중요도가 낮은 파라미터를 마스크하거나 제거하고, 이후 재학습을 통해 손실을 복구한다. 그러나 파라미터 자체를 삭제하기 때문에 원본 모델이 학습한 복합적인 시각‑언어 정렬 정보를 완전하게 보존하기 어렵다. 특히 압축률이 4배 이상일 때는 성능 급락이 불가피하다.
이에 저자들은 전체 가중치 행렬을 그대로 보존하면서, 작은 차원으로 변환하는 Full‑Mapping을 도입한다. 핵심 아이디어는 각 레이어의 가중치 (W_l \in \mathbb{R}^{D_1 \times D_1}) 를 두 개의 학습 가능한 매핑 행렬 (F^{in}_l, F^{out}_l \in \mathbb{R}^{D_2 \times D_1}) 로 좌·우 곱해 (W’_l = F^{out}_l W_l (F^{in}_l)^{\top}) 로 변환하는 것이다. 이때 크로네커 곱 ((F^{in}_l \otimes F^{out}_l)) 을 이용하면 파라미터 수를 (O(D_1 D_2)) 로 크게 줄이면서도 원본 행렬 전체 정보를 압축된 형태에 투사한다.
하지만 매핑 파라미터 자체가 새로운 최적화 변수이기 때문에 초기화가 매우 중요하다. 저자들은 Diagonal Inheritance Initialization을 제안한다. 초기 단계에서 (F^{in}_l)와 (F^{out}_l)를 대각선 행렬(단위 행렬에 스케일을 곱한 형태)로 설정함으로써, 압축된 모델이 원본 파라미터의 일부를 그대로 물려받게 만든다. 이는 분포 이동(distribution shift)을 최소화하고, 매핑 학습 초기에 급격한 손실 폭증을 방지한다.
매핑 단계가 끝난 뒤에는 지식 증류(Knowledge Distillation) 를 이용해 재학습한다. 원본 대형 CLIP을 Teacher 로, 매핑으로 초기화된 소형 모델을 Student 로 설정하고, logits 간 교차 엔트로피 손실을 최소화한다. 이 과정은 매핑 단계에서 놓친 미세한 정렬 정보와 멀티모달 상관관계를 보완한다.
또한 저자들은 Width‑Compression과 Depth‑Compression을 동시에 다룬다. Width‑Compression은 위에서 설명한 행렬 매핑을 각 레이어에 적용하고, Depth‑Compression은 새로운 레이어를 기존 레이어들의 선형 결합으로 표현한다. 구체적으로 (L_{depth} \in \mathbb{R}^{L_2 \times L_1}) 를 학습해 (W’{l’} = \sum{l=1}^{L_1} L_{depth}
댓글 및 학술 토론
Loading comments...
의견 남기기