효율적인 언어 모델 추론을 위한 적응형 스펙추레이티브 디코딩, AdaSD
초록
AdaSD는 드래프트 모델의 생성 길이와 타겟 모델의 토큰 수용 기준을 실시간으로 조절하는 두 가지 적응형 임계값을 도입한 하이퍼파라미터 프리 디코딩 기법입니다. 토큰 엔트로피와 Jensen-Shannon 거리를 기반으로 동작하며, 사전 분석이나 추가 학습 없이 기존 모델에 바로 적용 가능합니다. 실험 결과, 기존 스펙추레이티브 디코딩 대비 최대 49%의 속도 향상을 달성하면서 정확도 저하는 2% 미만으로 유지했습니다.
상세 분석
AdaSD의 기술적 핵심은 추론 과정에서 동적으로 조정되는 두 가지 임계값에 있습니다. 첫 번째는 ‘생성 임계값’으로, 드래프트 모델이 후보 토큰 생성을 언제 멈출지를 결정합니다. 이는 생성 중인 토큰 분포의 엔트로피(불확실성)를 기반으로 합니다. 엔트로피가 높을수록 모델이 다음 토큰을 예측하는 데 확신이 없다는 의미이므로, 이때 생성을 조기 중단하여 비효율적인 생성을 방지합니다.
두 번째는 ‘검증 임계값’으로, 드래프트 모델이 제안한 토큰을 타겟 모델이 수용할지 여부를 결정합니다. 이 결정에는 두 모델의 출력 분포 간 차이를 정량화하는 지표가 필요합니다. AdaSD는 Kullback-Leibler(KL) 발산이나 크로스 엔트로피 대신 Jensen-Shannon(JS) 거리를 채택했습니다. KL 발산은 분포 차이가 클 경우 무한대로 발산할 수 있어 임계값 설정이 불안정해지는 단점이 있습니다. 반면, JS 거리는 두 분포의 평균 분포에 대한 KL 발산의 평균으로 정의되며, 그 제곱근인 JS 거리는 0에서 1 사이의 값을 가지는 진정한 거리 척도입니다. 이는 임계값을 안정적이고 해석하기 쉬운 메트릭 공간 내에서 조정할 수 있게 합니다.
논문의 실증 연구에 따르면, 수용된 토큰은 거부된 토큰에 비해 드래프트 모델의 엔트로피와 두 모델 간 JS 거리가 모두 유의미하게 낮았습니다. 이는 두 지표가 토큰 수용 여부를 예측하는 효과적인 신호임을 입증합니다. AdaSD는 이 관찰을 바탕으로, 지금까지 생성된 토큰들의 엔트로피와 JS 거리 통계를 실시간으로 모니터링하여 두 임계값을 지속적으로 업데이트하는 휴리스틱 피드백 메커니즘을 구현했습니다. 따라서 사용자가 모델이나 태스크에 맞춰 하이퍼파라미터를 수동으로 튜닝할 필요가 전혀 없습니다. 이 접근법은 Medusa나 EAGLE처럼 모델 구조를 변경하거나 추가 학습이 필요한 방법론과도 차별화됩니다.
댓글 및 학술 토론
Loading comments...
의견 남기기