폭넓은 프루닝 얇은 지식 Llama 3.2의 능력 이중성

본 논문은 GLU‑MLP 레이어의 구조적 폭 프루닝을 최대 절대 가중치(MAW) 기준으로 적용해 확장비(expansion ratio)를 조절함으로써 Llama‑3.2 1B·3B 모델의 다양한 인지 능력 변화를 체계적으로 분석한다. 파라메트릭 지식(MMLU, GSM8K)과 퍼플렉시티는 감소하지만, 명령 수행 능력(IFEval)과 다단계 추론(MUSR)은 오히

폭넓은 프루닝 얇은 지식 Llama 3.2의 능력 이중성

초록

본 논문은 GLU‑MLP 레이어의 구조적 폭 프루닝을 최대 절대 가중치(MAW) 기준으로 적용해 확장비(expansion ratio)를 조절함으로써 Llama‑3.2 1B·3B 모델의 다양한 인지 능력 변화를 체계적으로 분석한다. 파라메트릭 지식(MMLU, GSM8K)과 퍼플렉시티는 감소하지만, 명령 수행 능력(IFEval)과 다단계 추론(MUSR)은 오히려 향상·견고함을 보인다. 특히 사실 지식 감소와 TruthfulQA‑MC2 점수 상승 사이에 강한 역상관(r = ‑0.864, p = 0.012)이 발견돼 프루닝이 정렬(alignement) 특성을 선택적으로 강화한다는 새로운 시각을 제공한다. 에너지 효율성도 배치 처리에서 23% 절감되는 등 실용적 이점이 제시된다.

상세 요약

본 연구는 Llama‑3.2 시리즈에 구조적 폭 프루닝을 적용한 최초의 시도이며, GLU‑MLP 레이어의 확장비를 7가지 수준(예: 1.0, 0.8, 0.6, …)으로 조정해 MAW 기준으로 가장 큰 절대값을 가진 뉴런을 남기고 나머지를 제거한다. 이 과정은 파라미터 수를 크게 줄이면서도 레이어 내부의 비선형 흐름을 크게 왜곡하지 않는다는 가정에 기반한다. 실험 결과는 두 가지 상반된 현상을 동시에 드러낸다. 첫째, MMLU와 GSM8K 같은 지식 기반 벤치마크에서는 확장비 감소에 따라 성능이 선형적으로 하락한다. 이는 파라메트릭 지식이 모델 내부에 저장된 가중치 용량에 직접적으로 의존한다는 기존 이해와 일치한다. 둘째, IFEval에서 관찰된 46 %~75 %의 향상은 프루닝이 모델의 “명령 수행” 메커니즘을 정제한다는 강력한 증거다. 프루닝 후 남은 뉴런들은 더 높은 신호‑대‑노이즈 비율을 갖게 되며, 이는 프롬프트에 대한 해석과 실행을 보다 일관되게 만든다. 또한 MUSR(다단계 추론) 점수는 거의 변동이 없으며, 이는 추론 흐름이 파라메트릭 지식보다 연산 그래프의 구조적 안정성에 더 의존한다는 점을 시사한다.

특히 주목할 점은 TruthfulQA‑MC2와 MMLU 사이의 역상관이다. 확장비가 낮아질수록 모델은 사실 오류를 더 잘 식별하고, “거짓” 답변을 회피하는 경향이 강해진다. 이는 프루닝이 “지식”을 억제하면서 “정렬” 신호를 상대적으로 강화한다는 새로운 해석을 가능하게 한다. 저자들은 이를 “선택적 필터링” 현상이라 부르며, 기존 압축 연구가 놓쳤던 행동 정렬 측면을 강조한다.

에너지 효율성 측면에서는 토큰당 전력 소비가 최대 23 % 감소했으며, 이는 배치 처리 시 특히 두드러졌다. 반면 단일 요청 지연(latency)은 프루닝된 모델이 작은 배치에서 메모리 접근 패턴이 비균일해져 약간 증가한다. 전체적으로, 폭 프루닝은 단순히 모델을 작게 만드는 것이 아니라, 특정 인지 능력을 억제하고 다른 행동 특성을 강화하는 “조절 스위치” 역할을 한다는 결론에 도달한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...