스펙터스 디코딩을 위한 피셔 정보 기반 레이어 프루닝
초록
SDFP는 피셔 정보 트레이스(FIT)를 이용해 사전 학습된 대형 언어 모델의 레이어를 민감도 순으로 평가하고, 영향력이 낮은 레이어를 제거해 경량 초안 모델을 만든다. 이 초안 모델을 기존 스펙터스 디코딩 파이프라인에 그대로 적용함으로써 추가 학습이나 하이퍼파라미터 튜닝 없이 1.3배~1.5배의 디코딩 속도 향상을 달성한다.
상세 분석
본 논문은 대형 언어 모델(LLM)의 실시간 응용에서 가장 큰 병목인 순차적 토큰 생성 과정을 가속화하기 위해, ‘초안(draft) 모델’과 ‘목표(target) 모델’ 간의 검증 메커니즘을 활용하는 스펙터스 디코딩(SD)에 주목한다. 기존 연구들은 경량 초안 모델을 만들기 위해 별도의 파인튜닝, 메타 학습, 혹은 복잡한 하이퍼파라미터 탐색을 필요로 했으며, 이는 배포 비용과 유지 관리 부담을 크게 늘렸다. SDFP는 이러한 문제를 완전히 배제하고, 오직 피셔 정보 트레이스(FIT)라는 정보‑기하학적 지표만을 사용해 레이어 수준의 민감도를 추정한다. FIT는 파라미터와 활성화 두 가지 변동을 동시에 고려하며, 경험적 피셔 행렬의 트레이스를 통해 각 레이어가 모델 출력 분포에 미치는 영향을 정량화한다. 이 값이 작을수록 해당 레이어를 제거해도 KL 발산이 작아 모델 성능 저하가 최소화된다는 가정 하에, 논문은 전체 레이어를 FIT 점수 순으로 정렬하고 사전 정의된 프루닝 비율(r)만큼 낮은 점수의 레이어를 삭제한다. 중요한 점은 이 과정이 단일 미니배치에 대한 순전파·역전파만으로 수행된다는 점이다. 따라서 2차 미분이나 대규모 최적화 루프가 필요 없으며, 일반적인 텍스트 코퍼스(WikiText2)만으로도 충분히 일반화된 민감도 추정이 가능하다.
프루닝 후 얻어진 초안 모델은 기존 스펙터스 디코딩 파이프라인에 그대로 투입된다. 초안 모델은 한 번에 k개의 토큰을 예측하고, 목표 모델은 KV 캐시를 활용해 동일 컨텍스트에서 이 토큰들의 조건부 확률을 계산한다. 각 토큰은 α_i = min(1, pθ/qϕ) 로 수용 여부가 결정되며, 수용된 토큰은 바로 출력에 추가된다. 최초 거부가 발생하면 목표 모델이 직접 토큰을 샘플링해 보정한다. 이 과정은 원본 모델의 출력 분포를 완전히 보존하면서도, 초안 모델의 정확도가 높을수록 더 많은 토큰을 한 번에 수용하게 되어 전체 디코딩 속도가 비례적으로 증가한다.
실험에서는 LLaMA‑2‑13B, 13B‑Chat, 70B 등 다양한 규모의 모델에 대해 프루닝 비율을 10%30% 정도 적용했으며, 기존 플러그‑인 방식인 Parallel, Lookahead, SWIFT와 비교했다. 결과는 평균 토큰당 처리 속도가 2826 토큰/초 수준으로, 기존 방법 대비 1.32×~1.5×의 속도 향상을 보였다. 특히, 초안 모델 구축에 추가 학습이 전혀 필요 없고, 하이퍼파라미터 튜닝이 요구되지 않으며, 프루닝 단계 자체가 몇 분 안에 완료된다는 점에서 실무 적용 가능성이 크게 높다.
한계점으로는 레이어 프루닝만을 사용했기 때문에 초안 모델의 파라미터 수 자체는 크게 감소하지 않아 메모리 절감 효과는 제한적이다. 또한, FIT 점수는 데이터셋에 의존적일 수 있어, 특정 도메인에 특화된 모델에서는 민감도 추정이 다소 부정확할 가능성이 있다. 향후 연구에서는 채널‑단위 혹은 뉴런‑단위 프루닝과 결합하거나, 동적 프루닝 비율을 토큰별 정확도에 맞춰 조정하는 방법을 탐색할 여지가 있다.
전반적으로 SDFP는 ‘프루닝 = 초안 모델’이라는 새로운 패러다임을 제시함으로써, 스펙터스 디코딩을 위한 사전 준비 비용을 사실상 0에 가깝게 낮추고, 다양한 LLM에 즉시 적용 가능한 가벼운 가속 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기