왜 확산 언어 모델은 진정한 비자율 병렬 디코딩에 어려움을 겪는가

본 논문은 확산 언어 모델(Diffusion Language Models, DLM)이 “한 번에 전체 토큰을 생성한다”는 비자율(non‑autoregressive, non‑AR) 특성을 이론적으로 제공함에도 불구하고, 실제 구현에서는 좌‑우(Left‑to‑Right) 순차적(autoregressive, AR) 디코딩으로 수렴하는 현상을 심층적으로 탐구한다. 저자는 먼저 DLM의 학습 목표와 현재 널리 사용되는 텍스트 데이터, 특히 긴 사슬‑생각(Chain‑of‑Thought, CoT) 감독 데이터 사이의 구조적 불일치를 지적한다. DLM은 노이즈‑추정 손실을 최소화하도록 설계되었지만, 훈련 코퍼스는 문맥이 시간적으로 진행되는 순차적 흐름을 강하게 내포한다. 특히 CoT 데이터는 복잡한 논리적 단계가 순차적으로 전개되는 형태이므로, 모델은 자연스럽게 “이전 토큰이 다음 토큰을 예측하는 데 필수적이다”는 편향을 학습하게 된다. 다음으로, 논문은 현재 빠른 DLM 구현에서 사용되는 디코딩 스케줄링을 분석한다. 기존 방법은 전체 시퀀스를 한 번에 업데이트하려는 ‘denoising‑step’ 방식을 채택했지만, 실제로는 마스크‑기반 혹은 단계별(stepped) 전략을 도입해 일부 토큰을 먼저 확정하고 나머지를 점진적으로 채우는 방식을 사용한다. 이러한 설계는 하드웨어 병렬성을 활용하려는 목적과는 반대로, 토큰 간 동기화와 의존성을 강화해 AR‑like 동작을 야기한다. 결과적으로, DLM은 이론적으로는 비자율이지만, 실험에서는 AR‑like 디코딩이 기본이 된다. 이러한 문제점을 해결하기 위해 저자는 NAP(Non‑Autoregressive Parallel DLMs)라는 데이터‑중심 접근법을 제안한다. NAP은 두 가지 핵심 전략을 포함한다. 첫 번째는 데이터 재구성이다. 기존의 단일 긴 CoT 예시 대신, 동일 문제에 대해 여러 개의 독립적인 추론 경로(예: 서로 다른 증명 순서, 대안적 계산 단계)를 수집하고, 이를 별도의 라벨 시퀀스로 저장한다. 이렇게 하면 모델은 “다양한 가능한 토큰 집합을 동시에 예측”하도록 학습하게 되며, 토큰 간 순차적 의존성이 약화된다. 두 번째는 디코딩 단계에서 ‘parallel‑forced’ 스케줄을 적용하는 것이다. 매 denoising step마다 전체 토큰 위치에 동일한 확률 임계값을 부여해, 일정 비율 이상의 토큰이 동시에 확정되도록 강제한다. 이 과정에서 서로 다른 경로가 충돌할 경우 재샘플링을 수행하는 교차 검증 메커니즘을 도입해 일관성을 유지한다. 실험은 수학 추론 벤치마크인 GSM8K, MathQA, 그리고 복합적인 문제 해결 데이터셋을 대상으로 수행되었다. 동일한 모델 아키텍처와 파라미터 수를 유지하면서, NAP은 표준 CoT 데이터로 학습된 DLM 대비 병렬 디코딩 시 2배 이상의 속도 향상을 달성했으며, 정확도는 0.5%~1% 수준으로 미미하게 감소하거나 오히려 소폭 향상되었다. 특히 병렬도(parallelism)를 4배, 8배로 확대했을 때 성능 격차가 더욱 커졌으며, 이는 NAP이 비자율 디코딩의 스케일러빌리티를 실질적으로 개선함을 보여준다. 논문의 결론은 다음과 같다. DLM이 비자율 병렬 디코딩에 실패하는 근본 원인은 모델 목표와 데이터의 순차성 불일치이며, 이를 해결하기 위해서는 (1) 데이터 자체를 비순차적, 다중 경로 형태로 재구성하고, (2) 디코딩 스케줄을 강제로 병렬화하는 두 축의 접근이 필요하다. NAP은 이러한 원칙을 실증적으로 검증한 최초 사례이며, 향후 코드 생성, 대화 시스템, 복합적인 텍스트 요약 등 더 복잡한 생성 태스크에도 동일한 데이터‑중심 설계가 적용될 가능성을 제시한다. 저자는 코드와 데이터 파이프라인을 공개했으며(https://github.com/pixeli99/NAP), 향후 연구에서는 더 다양한 도메인과 대규모 사전학습 모델에 대한 적용을 탐색할 계획이다.

왜 확산 언어 모델은 진정한 비자율 병렬 디코딩에 어려움을 겪는가

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기