데이터 없이 가능한 LLM 어텐션 레이어 프루닝 GateNorm 기법

본 논문은 대규모 언어 모델(LLM)의 자기‑주의 서브레이어 중 일부가 거의 영향을 주지 않는다는 ‘Attention Suppression Hypothesis’를 제시한다. 이를 근거로 쿼리‑키 결합 강도를 이용해 레이어를 순위 매기는 ‘Gate‑Norm’이라는 전혀 데이터가 필요 없는 일회성 가중치‑전용 프루닝 기준을 제안한다. 13 B 파라미터 LLaM

데이터 없이 가능한 LLM 어텐션 레이어 프루닝 GateNorm 기법

초록

본 논문은 대규모 언어 모델(LLM)의 자기‑주의 서브레이어 중 일부가 거의 영향을 주지 않는다는 ‘Attention Suppression Hypothesis’를 제시한다. 이를 근거로 쿼리‑키 결합 강도를 이용해 레이어를 순위 매기는 ‘Gate‑Norm’이라는 전혀 데이터가 필요 없는 일회성 가중치‑전용 프루닝 기준을 제안한다. 13 B 파라미터 LLaMA‑13B 모델에 적용해 8~16개의 어텐션 레이어를 제거하면 추론 속도가 최대 1.30배 빨라지면서 Zero‑shot 벤치마크 정확도는 2 % 이내로 유지된다. Gate‑Norm은 데이터 기반 프루닝과 동일 수준의 정확도를 보이며, 레이어 평가 속도가 1 000배 가량 빠르다.

상세 요약

본 연구는 LLM 내부에서 어텐션 서브레이어가 실제로 수행하는 역할을 재조명한다. 기존에는 모든 어텐션 블록이 모델 성능에 필수적이라고 가정했지만, 저자들은 대규모 사전학습 과정에서 일부 깊은 어텐션 레이어가 자체적으로 ‘음소거’되는 현상을 관찰했다. 이는 Residual 연결과 MLP 블록이 주된 표현을 담당하고, 해당 어텐션 레이어는 거의 기여하지 않는다는 의미다. 이러한 현상을 ‘Attention Suppression Hypothesis’라 명명하고, 이를 정량화하기 위해 쿼리(Q)와 키(K) 행렬 사이의 내적(또는 유사도) 크기를 측정한다. Q‑K 결합 강도가 낮을수록 해당 어텐션 헤드와 레이어가 입력 토큰 간의 상호작용을 거의 만들지 않으며, 따라서 제거해도 전체 네트워크 손실이 최소화된다.

Gate‑Norm은 이 결합 강도를 레이어 차원에서 평균화한 뒤, L2‑노름 형태로 정규화한다. 정규화된 값이 낮은 레이어를 우선적으로 프루닝 후보로 선정한다. 핵심은 전혀 데이터가 필요 없다는 점이다. 기존 데이터 기반 프루닝은 대규모 검증 셋을 사용해 각 레이어의 중요도를 평가하고, 그 후 미세조정(fine‑tuning) 과정을 거쳐 성능 회복을 시도한다. 반면 Gate‑Norm은 가중치만을 읽어들여 단 한 번의 연산으로 순위를 매기며, 프루닝 후 즉시 사용 가능하도록 설계되었다.

실험은 40‑layer, 13 B 파라미터 규모의 LLaMA‑13B 모델을 대상으로 진행되었다. 8개에서 16개의 어텐션 서브레이어를 제거했을 때, BoolQ, RTE, HellaSwag, WinoGrande, ARC‑Easy/Challenge, OpenBookQA 등 6가지 Zero‑shot 벤치마크에서 평균 정확도 손실이 2 % 이하로 제한되었다. 특히 추론 속도는 GPU/CPU 환경에서 최대 1.30배 향상되었으며, 메모리 사용량도 비례적으로 감소한다. Gate‑Norm의 레이어 스코어링 속도는 동일한 하드웨어에서 기존 데이터 기반 방법에 비해 약 1 000배 빠르다. 이는 실제 서비스 환경에서 대규모 모델을 빠르게 경량화하고 배포할 수 있는 실용성을 크게 높인다.

또한 저자들은 프루닝 후에도 모델 구조가 변하지 않도록 설계했으며, 특수 커널이나 재구성된 연산 그래프가 필요 없다는 점을 강조한다. 이는 기존 프루닝 기법이 종종 요구하는 복잡한 엔진 수정과 달리, 기존 딥러닝 프레임워크(예: PyTorch, TensorFlow)만으로도 바로 적용 가능함을 의미한다.

한계점으로는 현재 실험이 LLaMA‑13B와 같은 트랜스포머 기반 모델에 국한되어 있다는 점이다. 다른 아키텍처(예: 혼합형 모델, 멀티모달 변형)에서는 Q‑K 결합 강도가 동일한 의미를 갖지 않을 수 있다. 또한 프루닝 비율이 지나치게 높아지면 Residual 흐름만으로는 충분한 표현력을 제공하지 못해 성능 급락이 발생한다는 점도 관찰되었다. 향후 연구에서는 Gate‑Norm을 다른 모델군에 일반화하고, 프루닝 비율을 자동으로 조정하는 메타‑학습 기법과 결합하는 방향이 제시된다.

요약하면, 이 논문은 “데이터 없이도 가능한 어텐션 레이어 프루닝”이라는 새로운 패러다임을 제시하며, 실용적인 속도·메모리 절감 효과와 함께 기존 데이터 기반 방법과 동등한 정확도 유지라는 두 마리 토끼를 잡았다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...