프루닝된 대형 언어 모델 회복을 위한 효율적 데이터 선택 PASER
초록
PASER는 프루닝으로 손상된 LLM의 능력을 복구하기 위해, 의미적 군집화와 스펙트럼 클러스터링으로 능력별 지시문을 구분하고, 각 군집의 손상 정도에 따라 데이터 예산을 할당한다. 손실이 큰 샘플을 우선 선택하고, 충돌·불필요한 지시문을 필터링해 부정적 튜닝 효과를 방지한다. 실험 결과, 전체 튜닝 데이터의 4%~20%만 사용해도 기존 방법보다 크게 성능을 회복한다.
상세 분석
PASER는 프루닝 후 LLM의 능력 저하가 균등하지 않다는 점에 착안한다. 먼저 모든 지시문을 Sentence‑BERT 임베딩으로 변환한 뒤, 확산 커널을 적용해 비선형 구조를 보존하는 저차원 매니폴드로 투영한다. 이 매니폴드 공간에서 NMF 기반 스펙트럼 클러스터링을 수행해 K개의 군집을 형성하는데, 각 군집은 특정 능력(예: 수학, 코딩, 상식)과 연관된 지시문 집합으로 해석된다.
각 군집별 손상 정도는 원본 모델과 프루닝 모델의 출력 토큰 분포 차이를 Jensen‑Shannon Divergence(JSD)로 측정해 Capability Degradation Score(CDS)를 산출한다. JSD는 대칭성과 0~1의 정규화된 범위, 이상치에 대한 강건성을 제공해, 손실 기반 평가보다 미세한 성능 저하를 더 정확히 포착한다.
예산 할당 단계에서는 CDS가 높은 군집에 더 많은 샘플을 배정한다. 동시에 각 샘플의 연산 비용(예: 토큰 길이, 복잡도)을 고려해 효율성을 극대화한다. 군집 내부에서는 “성능 저하가 가장 큰” 샘플을 우선 선택하는 방식으로, 제한된 예산 내에서 최대한의 회복 효과를 얻는다.
부정적 튜닝 효과를 방지하기 위해 PASER는 개념 일관성 그래프를 구축한다. 그래프의 노드는 선택된 지시문이며, 엣지는 의미적 유사도와 목표 능력 간 일관성을 나타낸다. 그래프 탐색을 통해 충돌하거나 불필요한 지시문을 식별·제거함으로써, 모델이 혼란스러운 신호에 노출되는 것을 최소화한다.
이론적으로는 알고리즘의 시간 복잡도를 O(N log N) 수준으로 분석하고, 샘플링 오류에 대한 상한을 제공한다. 실험에서는 LLaMA 2/3, Baichuan 2, Qwen 2.5, Mixtral 8×7B 등 다양한 모델과 구조·비구조 프루닝 방식을 대상으로, 4%20%의 데이터만 사용해도 기존 전체 데이터 튜닝 대비 1.53배 높은 회복 성능을 기록했다. 특히 수학·코드와 같은 고난도 능력에서 손실이 크게 감소했으며, 전체 학습 시간도 30% 이상 단축되었다.
PASER는 프루닝된 LLM을 실제 서비스에 재배포할 때, 데이터·연산 비용을 크게 절감하면서도 성능 저하를 최소화할 수 있는 실용적인 솔루션으로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기