ReplaceMe 네트워크 단순화 깊이 가지치기와 트랜스포머 블록 선형화
초록
ReplaceMe는 작은 캘리브레이션 데이터만으로 트랜스포머 블록을 선형 변환으로 대체하는 훈련‑무료 깊이 가지치기 기법이다. 선택된 연속 블록을 제거하고, 그 입력‑출력을 근사하는 선형 행렬을 추정·통합함으로써 파라미터 증가 없이 25 % 정도의 압축률에서도 원본 모델 성능의 90 % 이상을 유지한다. 기존의 재학습·히링 단계가 필요 없는 점이 가장 큰 장점이며, LLaMA‑2, LLaMA‑3, Qwen2.5, Falcon 등 다양한 LLM에 적용해 경쟁 방법들을 앞선다.
상세 분석
ReplaceMe는 “깊이 가지치기”라는 구조적 프루닝 접근법을 훈련‑무료 방식으로 확장한다는 점에서 혁신적이다. 기존 연구들은 보통 블록을 제거한 뒤 LoRA·SVD 등으로 재학습하거나 히링 과정을 거쳐 성능 손실을 복구한다. 반면 본 논문은 두 단계로 구성된 파이프라인을 제시한다. 첫 번째는 캘리브레이션 데이터(수천~수만 토큰)로 각 블록의 활성화 차이를 측정해, 코사인 거리 등으로 가장 영향력이 적은 연속 블록 구간(i∗, i∗+n)을 선택한다. 여기서 중요한 점은 “거리 측정”이 매우 가벼운 연산이며, 실험적으로 코사인 거리가 L2보다 블록 선택 정확도가 높다는 것이 입증되었다.
두 번째 단계는 선택된 블록을 대체할 선형 변환 T를 추정하는 것이다. 논문은 두 가지 목표 함수를 제시한다. (1) L2‑거리 기반 최소제곱 해를 이용한 폐쇄형 해법; (2) 코사인 거리를 최소화하는 비선형 최적화(Adam 사용). 특히 코사인 거리 최적화는 토큰별 정규화된 내적을 최소화함으로써, 입력과 출력의 방향성을 보존한다는 장점이 있다. 메모리 효율을 위해 T를 추정할 때는 M_i와 (L_{i+n}−Y_i)만 저장하는 간소화된 식을 사용했으며, 실험에서 성능 저하가 미미함을 확인했다.
추정된 T는 바로 앞선 MLP 레이어의 다운프로젝션 가중치와 행렬 곱으로 결합될 수 있다. 즉, 새로운 파라미터를 추가하지 않고 기존 가중치에 T를 “펌프”함으로써 모델 구조가 변하지 않는다. 이는 하드웨어 친화적이며, 추후 양자화·지연 실행 파이프라인에 바로 적용 가능하게 만든다.
규제 항목으로 L1·L2 정규화를 도입해 T의 스파시티와 안정성을 조절한다. 코사인 거리 목표에 L1 정규화를 추가하면 변환 행렬이 더 희소해져 메모리 사용량이 감소하지만, 퍼플렉시티가 약간 상승한다는 트레이드오프가 보고되었다.
다중 선형 변환(Multi‑LT) 확장은 연속이 아닌 여러 블록 구간에 각각 T를 학습시켜 적용할 수 있게 한다. 비연속적 블록을 동시에 프루닝하면 퍼플렉시티는 개선되지만, 일부 벤치마크에서는 정확도가 떨어지는 현상이 관찰되었다. 이는 변환 간 상호작용이 복잡해지기 때문으로 해석된다.
실험에서는 LLaMA‑2‑7B, LLaMA‑3‑8B‑Instruct, Qwen2.5‑7B, Falcon‑11B 등 최신 LLM에 25 % 깊이 프루닝을 적용했다. 평균 정확도는 원본 대비 92.5 %를 유지했으며, Lambada OpenAI 퍼플렉시티는 0.9 % 수준으로 감소했다. 또한, 재학습이 필요한 기존 방법들에 비해 압축 시간은 5배 이상 빠르고, CodeCarbon 기반 CO₂ 배출량도 현저히 낮았다.
전체적으로 ReplaceMe는 (1) 최소 캘리브레이션 데이터 요구, (2) 훈련‑무료, (3) 파라미터 무증가, (4) 다양한 모델·태스크에 일반화 가능, (5) 환경 친화적이라는 네 가지 핵심 강점을 제공한다. 다만, 압축 비율이 30 % 이상으로 증가하면 선형 근사가 한계에 부딪혀 성능 저하가 급격히 나타나는 점은 향후 비선형 보정 혹은 혼합 프루닝 전략이 필요함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기