다음 토큰 예측을 넘어서: 확산 언어 모델과 자기회귀 모델의 성능 비교

다음 토큰 예측을 넘어서: 확산 언어 모델과 자기회귀 모델의 성능 비교
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 자기회귀 언어 모델(ARM)과 확산 언어 모델(DLM)의 추론 성능을 이론적 분석과 실험 프로파일링을 통해 비교한다. DLM은 토큰 위치를 병렬로 업데이트해 연산 강도를 높이지만, 긴 컨텍스트에서는 전체 시퀀스를 매 단계 재계산해야 하므로 확장성이 떨어진다. 블록‑와이즈 디코딩을 도입하면 DLM의 연산 강도는 유지하면서도 컨텍스트 길이에 대한 의존성을 감소시켜 ARM과 비슷한 확장성을 얻는다. 배치 추론에서는 ARM이 KV 캐시 활용으로 더 높은 처리량을 보이며, DLM은 샘플링 단계 수를 줄이는 것이 지연 감소의 핵심임을 강조한다.

상세 분석

이 연구는 LLaMA‑3‑8B‑Instruct(ARM)와 LLaDA‑8B‑Instruct(DLM)를 동일 규모 모델로 설정하고, NVIDIA RTX A6000(A100) GPU에서 FP16 추론을 수행한다. 먼저, 연산 강도(arithmetic intensity, AI)를 FLOPs와 메모리 연산(MOPs) 비율로 정의하고, 루프라인 모델을 이용해 compute‑bound와 memory‑bound 구간을 시각화한다. ARM의 프리필 단계는 프롬프트 길이 Lp가 hidden 차원 d보다 작을 때 O(B·Lp) 수준의 AI를 보이며, Lp≫d이면 O(Lp)로 감소한다. 디코드 단계는 KV 캐시 재사용으로 메모리 대역폭에 제한받아 AI≈O(1) 수준이 된다. 반면, 순수 DLM은 매 샘플링 스텝마다 전체 시퀀스(L=Lp+Lg)를 재계산하므로 AI≈O(B·L) 혹은 O(L)으로, 특히 긴 프롬프트에서는 compute‑bound가 된다. 블록‑와이즈 DLM은 블록 크기 G만큼 토큰을 동시에 업데이트하고, KV 캐시를 프롬프트와 비활성 블록에 대해 재사용한다. 이 경우 AI는 G에만 의존해 O(B·G) 혹은 O(G) 수준으로 고정되며, L에 대한 의존성이 사라진다. 실험 결과, 블록‑와이즈 DLM은 동일 K=Lg 설정에서도 전체 지연이 2~3배 감소하고, AI도 크게 낮아져 compute‑bound 상황에서 효율이 개선된다. 그러나 K를 Lg와 동일하게 두면 여전히 한 스텝당 한 토큰만 정제되므로 비효율적이며, 다중 토큰을 한 번에 정제하는 기법이 필요하다. 배치 확장성 측면에서는 ARM이 KV 캐시를 활용해 메모리 바운드 디코드가 배치 규모에 비례해 선형적으로 가속되는 반면, DLM은 블록 내부의 양방향 어텐션이 전체 KV 캐시를 요구해 메모리 사용량이 B·L에 비례, 배치가 커질수록 OOM 위험이 커진다. 따라서 현재 상황에서는 ARM이 배치 처리량에서 우위에 있다. 종합적으로, DLM은 토큰‑레벨 병렬성을 통해 높은 AI와 잠재적 속도 향상을 제공하지만, 긴 시퀀스와 배치 상황에서는 KV 캐시 부재와 전체 재계산 비용이 병목이 된다. 블록‑와이즈 디코딩과 샘플링 스텝 감소가 이러한 한계를 완화하는 핵심 전략이며, 향후 연구는 효율적인 다중 토큰 정제, KV 캐시 친화적 어텐션 설계, 그리고 하드웨어‑특화 가속기 개발에 초점을 맞춰야 한다.


댓글 및 학술 토론

Loading comments...

의견 남기기