주파수 기반 데이터 큐레이션으로 모델 압축 효율 극대화

본 논문은 대규모 언어 모델(LLM)의 사후 압축(post‑training compression) 단계에서 사용되는 캘리브레이션 데이터의 선택이 최종 모델 성능에 미치는 영향을 집중적으로 탐구한다. 기존 연구들은 프루닝이나 양자화와 같은 압축 기법 자체에 주목했지만, 캘리브레이션 데이터가 모델 내부 통계(가중치 중요도, 활성화 분포 등)를 추정하는 핵심 역할을 한다는 점은 상대적으로 간과돼 왔다. 특히, 일반적으로 사용되는 C4, Pile 같은 대규모 일반 코퍼스는 특정 다운스트림 작업에 최적화되지 않아, 압축 후 성능 저하를 초래할 가능성이 있다. 이에 저자들은 언어학적 통계인 Zipf 법칙을 활용해 “어휘 다양성”을 극대화하는 데이터 선택 전략을 제안한다. Zipf 법칙에 따르면, 전체 어휘 중 소수는 매우 높은 빈도로 등장하고, 대부분의 어휘는 낮은 빈도로 등장한다. 저빈도 토큰은 모델이 드물게 접하는 패턴을 학습하게 만들며, 이는 프루닝 시 가중치 마스킹이나 양자화 시 스케일링에 중요한 영향을 미친다. 따라서 캘리브레이션 데이터가 이러한 저빈도 토큰을 충분히 포함하면, 모델이 보다 풍부한 활성화 분포를 관찰하게 되어 압축 과정이 더 정확해진다. **ZipCal 알고리즘**은 다음과 같은 절차로 구성된다. 1. 전체 데이터셋을 토큰화하고 특수 토큰(EOS 등)을 제거해 어휘 집합 V를 만든다. 2. 각 샘플 s에 대해 고유 어휘 Vₛ를 계산한다. 3. 현재까지 선택된 샘플들의 어휘 합집합 V_covered와의 차집합 |Vₛ \ V_covered|를 최대화하는 샘플을 반복적으로 선택한다. 4. 동일한 어휘 증가량을 가진 경우, 고유 토큰 수가 더 많은 샘플을 우선한다. 이 과정은 k번 반복되며, 각 반복에서 전체 후보 n개에 대해 차집합 크기를 계산하므로 시간 복잡도는 O(n·k)이다. 이는 기존에 모델을 실제로 실행해 퍼플렉시티(perplexity)나 활성화 기반 점수를 계산하는 방법에 비해 선형적인 연산만으로 크게 빠른 속도를 제공한다. 다중 도메인 상황을 위해서는 각 도메인별로 위 과정을 적용해 로컬 풀 Pᵢ를 만든 뒤, 경량 임베딩을 이용해 k‑centers 클러스터링을 수행한다. 이 단계는 각 도메인의 고유 어휘가 균형 있게 반영되도록 보장한다. **실험 설정**은 두 가지 최신 LLM, Llama‑3.1‑8B‑Instruct와 Gemma‑2‑9B‑it을 대상으로 한다. 프루닝 방법으로는 Wanda(비구조적 가중치 중요도 기반)와 2SSP(구조적 프루닝) 를, 양자화 방법으로는 GPTQ와 AWQ를 사용했다. 캘리브레이션 샘플 수는 128개, 컨텍스트 길이는 2048 토큰으로 고정하였다. 평가 벤치마크는 LM‑Evaluation‑Harness를 통해 언어 모델링(perplexity), 수학 추론(GSM8K, MMLU‑M), 상식 QA(HellaSwag, Winogrande), NLI(RTE, ANLI), 지식/번역(MMLU‑K, ARC, WMT14) 등 5개 기능 영역을 포괄한다. **주요 결과**는 다음과 같다. - **Random 대비 성능**: ZipCal은 무작위 샘플링에 비해 평균 0.4~0.5% 포인트의 정확도 향상을 보였으며, 특히 저빈도 토큰이 많이 등장하는 수학·지식 영역에서 두드러졌다. - **COLA 대비 효율성**: 모델‑의존적 데이터 큐레이션 방법인 COLA와 비교했을 때, ZipCal은 거의 동일한 성능을 유지하면서도 실행 시간이 평균 240배 이상 빨랐다(예: Llama‑3.1‑8B‑Instruct에서 5400초 → 22.5초). - **다중 도메인 일반화**: 각 도메인별 로컬 풀을 만든 뒤 k‑centers 로 최종 샘플을 선택함으로써, 도메인 간 성능 격차가 최소화되었다. 이는 단일 대규모 코퍼스에 의존하는 기존 방법이 특정 도메인에서 성능 저하를 겪는 문제를 해결한다. 또한, 프루닝과 양자화 모두에 동일한 ZipCal을 적용했을 때, 압축 후 모델의 전체적인 정확도와 퍼플렉시티가 유지되거나 약간 개선되는 것을 확인했다. 이는 어휘 다양성 기반 데이터 선택이 압축 과정 전반에 걸쳐 유효한 일반화 가능한 프리프로세싱 단계가 될 수 있음을 시사한다. **한계와 향후 연구**에서는 현재 ZipCal이 토큰 수준의 어휘 다양성에만 초점을 맞추고 있어, 문장 구조나 의미적 다양성을 포괄하지 못한다는 점을 언급한다. 향후에는 구문 트리, 의미 롤, 혹은 멀티모달 특성을 결합한 확장된 큐레이션 전략을 탐색할 계획이다. 또한, 현재 실험은 8~9B 파라미터 모델에 국한돼 있으므로, 70B 이상 초대형 모델에 대한 스케일링 효과도 검증이 필요하다. 결론적으로, 이 연구는 “데이터 자체의 통계적 특성만으로도 충분히 고품질 캘리브레이션 세트를 구성할 수 있다”는 새로운 패러다임을 제시한다. ZipCal은 선형 시간 복잡도와 모델‑불가지 특성으로, 대규모 LLM 압축 파이프라인에서 비용 효율적인 데이터 큐레이션 표준으로 자리매김할 잠재력을 갖는다.

주파수 기반 데이터 큐레이션으로 모델 압축 효율 극대화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기