엔트로피 기반 적응형 블록 분할로 효율적인 확산 언어 모델 구현
초록
Swordsman은 엔트로피 변화를 이용해 의미·구문 구성 요소 경계를 자동으로 탐지하고, 이를 기반으로 블록을 가변적으로 나누어 확산 언어 모델의 블록‑와이즈 디코딩 효율과 품질을 동시에 향상시키는 훈련‑프리 프레임워크이다.
상세 분석
본 논문은 확산 언어 모델(DLM)의 핵심 병목인 반복적인 마스크 해제 과정에서 블록‑와이즈 디코딩이 제공하는 속도‑품질 트레이드오프를 한 단계 끌어올렸다. 기존 연구들은 고정 길이 블록을 사용해 KV 캐시 재활용과 병렬 마스크 해제를 구현했지만, 블록 경계가 의미·구문 단위와 일치하지 않아 토큰 간 상관관계가 파편화되고, 특히 경계 근처에서 불확실성이 급증해 디코딩 품질이 저하되는 문제가 있었다.
Swordsman은 ‘엔트로피 감소 가설(ERH)’을 이론적 근거로 삼아, 토큰별 예측 엔트로피 Hₖ를 실시간 계산하고 인접 토큰 간 엔트로피 차이 ΔHₖ=Hₖ₊₁−Hₖ를 추적한다. 논문은 다음 두 가지 통계적 특성을 제시한다. 첫째, 동일 구성 요소 내부에서는 후보 어휘 집합 크기 Nₖ가 완만히 변하므로 ΔHₖ는 작은 값(δ)으로 제한된다(식 8‑9). 둘째, 구성 요소 경계에서는 이전 구문의 제약이 사라지고 새로운 구문의 불확실성이 급증해 N_global≫N_local, 즉 ΔH_boundary≈logρ가 크게 나타난다(식 10‑12). 이러한 차이를 이용해 ΔH의 국부 최대값을 경계 후보로 선정하고, 사전 정의된 최소 임계값 τ_min보다 큰 경우에만 블록을 종료한다.
블록 분할은 순차적으로 진행된다. 현재 블록 Bₖ가 디코딩되면 KV 캐시가 업데이트되고, 남은 마스크 토큰에 대해 다시 순전파를 수행해 최신 엔트로피를 얻는다. 이후 ΔH를 재계산해 다음 최대 변곡점을 새로운 블록 오른쪽 경계로 설정한다. 이 과정은 남은 토큰 수가 감소함에 따라 전체 엔트로피 변동이 점차 완만해지는 특성을 활용해 과도한 세분화를 방지한다.
또한, 블록마다 토큰 해제 난이도가 다르므로 고정된 confidence threshold τ를 사용하는 기존 방법과 달리, Swordsman은 블록 내부의 실시간 해제 비율을 모니터링하고 동적으로 τ를 조정한다. 즉, 현재 블록에서 이미 많은 토큰이 해제되었으면 τ를 높여 보수적으로 진행하고, 해제가 적으면 τ를 낮춰 병렬성을 극대화한다. 이는 “난이도‑인식 병렬 해제”라 명명되며, 블록 내부의 안정성을 유지하면서도 전체 추론 속도를 크게 끌어올린다.
실험에서는 KV 캐시와 결합된 Swordsman이 GSM8K에서 8.79배 가속화와 정확도 77.40%→81.50% 향상을 달성했으며, LLaDA 기반 Fast‑dLLM 대비 HumanEval에서 35.59%→43.90% 정확도 상승을 기록했다. 이는 블록 경계가 의미적 단위와 정렬될 때 모델이 더 정확한 확률 분포를 학습하고, 불필요한 반복 디노이징을 줄일 수 있음을 입증한다.
핵심 기여는 다음과 같다. 1) 엔트로피 기반 경계 탐지를 통해 의미·구문 단위와 정합된 가변 블록 분할 알고리즘 제시, 2) 블록 내부 실시간 상태에 기반한 동적 해제 임계값 조정 메커니즘 도입, 3) 훈련‑프리 설계로 기존 DLM 파이프라인에 손쉽게 적용 가능하도록 함, 4) 광범위한 베이스라인 대비 속도·품질 모두에서 최첨단 성능을 입증.
이러한 접근은 향후 대규모 확산 언어 모델이 실시간 서비스에 적용될 때, 고정 블록 구조가 초래하는 비효율성을 근본적으로 해소하고, 엔트로피 정보를 활용한 적응형 디코딩 전략이 새로운 표준이 될 가능성을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기