대형언어모델 사후프루닝 통계보정 기법
초록
본 논문은 사후프루닝 과정에서 가중치와 활성값의 1차 통계량을 활용해 중요도 점수를 보정하고, 프루닝 후 발생하는 신호 에너지 손실을 분석적 방법으로 복원하는 경량 프레임워크를 제안한다. 기존 휴리스틱 방식의 효율성은 유지하면서도 활성값 이상치에 대한 민감도를 낮추고, 재학습 없이도 성능 저하를 최소화한다.
상세 분석
이 연구는 두 가지 핵심 아이디어로 구성된다. 첫 번째는 **채널‑별 분산 보정(Variance‑Calibrated Importance, CVR)**이다. 기존 WANDA와 같은 휴리스틱 프루닝은 가중치 절대값과 입력 채널의 L2 노름을 곱해 중요도를 산출한다. 그러나 LLM에서 입력 활성값은 매우 이질적이며, 일부 채널에 존재하는 극단적인 아웃라이어가 전체 중요도 점수를 과도하게 끌어올리는 문제가 있다. 저자들은 이를 해결하기 위해 각 입력 채널의 가중치 분산 (v_j = \frac{1}{d_{out}}\sum_i (W_{ij})^2) 를 계산하고, 역분산 형태의 보정 계수 (c_j = (v_j + \epsilon)^{-\alpha/2}) 를 도입한다. 동시에 활성값의 분산 (v^x_j) 로부터 (a_j = (v^x_j)^{1/4}) 를 구해 활성값 변동성을 완화한다. 최종 중요도는 (S_{ij}=|W_{ij}|\cdot a_j \cdot c_j) 로 정의되며, 이는 가중치 자체의 안정성(분산이 낮은 채널)과 활성값의 신뢰성을 동시에 반영한다. 이 과정은 사전 훈련된 가중치만으로 계산되므로 추가적인 활성값 수집이나 역전파가 필요하지 않는다.
두 번째는 **에너지 보정(Energy Compensation, EC)**이다. 프루닝 후 남은 가중치 행렬 (\tilde{W}=M\odot W) 은 평균값이 변하지 않더라도 L2 에너지(분산)가 크게 감소한다. 이는 층별 출력 스케일을 축소시켜 후속 레이어에 누적적인 신호 손실을 야기한다. 저자들은 각 열(입력 차원)과 행(출력 차원)별로 원본 가중치 평균 (\mu_{col},\mu_{row}) 를 기준으로 중심화하고, 원본과 프루닝 후 에너지 비율을 이용해 스케일 팩터 (s_{col}, s_{row}) 를 구한다. 구체적으로
\
댓글 및 학술 토론
Loading comments...
의견 남기기