비전 트랜스포머를 위한 한 번에 끝내는 구조적 프루닝, CORP

비전 트랜스포머를 위한 한 번에 끝내는 구조적 프루닝, CORP
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CORP는 라벨·그라디언트·재학습 없이도 비전 트랜스포머의 MLP와 어텐션 구조를 한 번에 절삭하고, 작은 캘리브레이션 데이터만으로 닫힌 형태의 보상 파라미터를 계산해 정확도 손실을 최소화한다. 실험 결과 DeiT‑Huge 모델을 50% 구조적 희소화했을 때 Top‑1 정확도가 82.8%까지 유지되었으며, 전체 프루닝 과정은 단일 GPU에서 20분 이내에 완료된다.

상세 분석

본 논문은 기존 구조적 프루닝이 “무엇을 제거할 것인가”에 초점을 맞추는 반면, 실제 성능 저하의 근본 원인은 “제거 후 발생하는 표현 오류”에 있음을 지적한다. 이를 해결하기 위해 저자들은 프루닝을 표현 복구 문제로 재정의하고, 제거된 MLP 은닉 차원과 어텐션 쿼리·키 서브스페이스를 남은 부분의 선형 결합으로 근사한다.

MLP의 경우, 원래 출력 y = W_S x_S + W_P x_P + b 에서 x_P 를 x_S 의 affine 함수 B x_S + c 로 모델링하고, ridge regression을 통해 B 와 c 를 닫힌 형태로 구한다. 이렇게 얻은 Ŵ_S = W_S + W_P B, b̂ = b + W_P c 는 프루닝 후에도 원래 출력과 거의 동일한 기대값을 제공한다.

어텐션에서는 쿼리·키 행렬 Q, K 를 각각 Q_S, Q_P, K_S, K_P 로 분할하고, 사라진 로그잇 Q_P K_Pᵀ 를 Q_S M K_Sᵀ 로 근사한다. 여기서 M 은 Sylvester 방정식 (Q_Sᵀ Q_S) M (K_Sᵀ K_S) + λM = (Q_Sᵀ Q_P)(K_Pᵀ K_S) 을 ridge‑regularized 형태로 풀어 얻는다. 이후 I + M 을 QR 분해(또는 SVD)하여 R, Σ 로 분해하고, 보상된 프로젝션 Ŵ_Q,S = W_Q,S R Σ^{1/2}, Ŵ_K,S = W_K,S Σ^{1/2} 을 얻음으로써, 프루닝된 차원에서도 로그잇의 기대값을 유지한다.

핵심적인 장점은 오프라인으로 모든 보상 파라미터를 계산하고, 추론 시 추가 연산이 전혀 없다는 점이다. 계산 복잡도는 캘리브레이션 샘플 N 과 차원 d 에 대해 O(N d²) 정도이며, 실제 구현에서는 스트리밍 방식으로 2차 통계량을 누적해 메모리 사용을 최소화한다. 또한, 보상 단계가 closed‑form이므로 대규모 모델(DeiT‑Huge)에도 20분 이내에 적용 가능하다.

실험에서는 ImageNet‑1k에 대해 DeiT‑Tiny부터 DeiT‑Huge까지 30%~50% 구조적 희소화(MLP와 어텐션 동시)에서, 보상 없이 프루닝하면 Top‑1 정확도가 급격히 떨어지지만, CORP를 적용하면 50% 희소화에서도 Top‑1이 82.8%까지 유지된다. FLOPs 감소와 실제 하드웨어 측정에서도 2×~3× 속도 향상이 확인되었다.

이러한 결과는 표현 보상이 구조적 프루닝의 핵심임을 강력히 시사한다. 기존 방법들이 중요도 순위에만 의존해 재학습을 필요로 했던 반면, CORP는 단일 패스와 작은 캘리브레이션 데이터만으로도 충분히 정확도를 보존한다는 점에서 포스트‑트레이닝 압축 분야에 새로운 패러다임을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기