시간적 대비 가이드(TeGu)로 LLM 디코딩 효율 극대화
초록
본 논문은 대형 언어 모델(LLM)의 자체 예측을 활용해 ‘전문가’와 ‘아마추어’ 분포를 시간 축에서 대비하는 Temporal Guidance(TeGu)를 제안한다. Multi‑Token Prediction(MTP)을 약한 아마추어 신호로 이용하고, 경량 Conditional MTP Projector(cMTPP)를 통해 기존 모델에 최소한의 추가 파라미터만 삽입한다. 실험 결과, 다양한 모델 규모와 벤치마크에서 기존 Contrastive Decoding 및 DoLa보다 높은 품질을 유지하면서 메모리·연산 오버헤드를 크게 낮춘다.
상세 분석
이 논문은 LLM 디코딩 단계에서 “전문가”(Expert)와 “아마추어”(Amateur) 분포를 대비하는 기존 Contrastive Decoding(CD)의 근본적인 한계를 재조명한다. 전통적인 CD는 별도의 작은 모델을 아마추어로 사용해 두 모델의 로그 확률 차이를 가중합하는데, 이는 KV‑cache 두 배, GPU 메모리·지연 시간 증가라는 실용적 비용을 초래한다. 최근 DoLa와 같은 내부 대비 방식은 얕은 층을 아마추어로 삼아 단일 모델 내에서 대비를 구현했지만, 얕은 층이 충분히 “약한” 신호를 제공하지 못해 소형 모델에서는 불안정성을 보인다.
저자들은 LLM이 강한 지역성(locality) 편향을 가지고 있다는 관찰을 출발점으로 삼는다. 즉, 현재 토큰을 예측할 때 직전 몇 개 토큰이 가장 큰 영향을 미치며, 이 정보를 제거하면 모델은 보다 일반적인, 고빈도 패턴에 의존하는 저품질 분포를 만든다. 이를 활용해 Multi‑Token Prediction(MTP) 헤드를 “시간적 아마추어”로 전환한다. MTP는 기존 토큰 t‑k 이전 컨텍스트만을 사용해 토큰 t를 예측하도록 설계되며, 이는 고엔트로피·정보량이 낮은 분포가 된다.
핵심 아이디어는 두 예측을 로그 공간에서 선형 결합하는 전통적인 CD 공식
log P_guided = log P_exp + α (log P_exp – log P_amt)
을 그대로 적용하되, P_amt를 여러 시간 오프셋 k에 대한 가중합으로 정의한다는 점이다. 가중합은 Log‑SumExp 기법으로 안정적으로 구현되며, α와 각 k에 대한 가중치 w_k는 하이퍼파라미터로 조정한다. 특히 “Bi‑step Temporal Guidance”는 가장 최근 한 스텝(k=1)만을 사용해 구현이 간단하면서도 효과가 입증된다.
MTP를 지원하지 않는 기존 LLM에 적용하기 위해 제안된 Conditional MTP Projector(cMTPP)는 하나의 경량 모듈만 추가한다. cMTPP는 AdaLN으로 시간 오프셋(k)을 입력에 삽입하고, SwiGLU‑FFN을 거쳐 기존 고정된 LM 헤드에 전달한다. 이렇게 하면 별도의 독립적인 MTP 헤드를 다수 배치할 필요가 없으며, 파라미터 수와 메모리 사용량을 최소화한다.
학습 단계에서는 백본 모델을 완전히 고정하고 cMTPP만을 최적화한다. 손실은 (1) 표준 교차 엔트로피 CE, (2) Knowledge Distillation(KD)으로 구성된 가중합이며, KD는 전문가 분포와 아마추어 분포 사이의 KL 발산을 최소화한다. 온도 파라미터와 CE/KD 비율은 실험적으로 2.0·0.3·0.7 로 설정되었다.
실험에서는 GPT‑NeoX, LLaMA, Qwen 등 다양한 규모(7B70B)와 아키텍처의 모델에 TeGu와 cMTPP를 적용했다. GSM8K, Math500, HEval, MBPP, IFEval 등 7개의 베치마크에서 Greedy, 표준 CD, DoLa와 비교했을 때 평균 412% 포인트의 정확도·코드 성공률 향상을 기록했으며, KV‑cache 두 배가 필요했던 CD 대비 메모리 사용량은 30% 이하로 감소했다. 또한 추론 지연 시간도 α 값과 오프셋 수에 따라 미세하게 조정 가능해 실제 서비스 환경에 적합함을 보였다.
결론적으로, 시간적 대비 가이드는 “모델 자체가 만든 불확실성을 현재 결정에 활용한다”는 새로운 패러다임을 제시한다. 이는 별도 아마추어 모델을 유지할 필요 없이, 기존 모델의 내부 시계열 정보를 재활용함으로써 효율성과 품질을 동시에 달성한다는 점에서 향후 LLM 디코딩 최적화 연구에 중요한 방향성을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기