이해와 생성의 균형을 잡는 혼합 디스크리트 디퓨전 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

XDLM은 마스크 노이즈와 균일 노이즈를 정적 혼합 커널로 결합해 MDLM과 UDLM을 이론적으로 하나로 통합한다. 스칼라 형태의 posterior와 KL을 도출해 메모리 사용을 크게 줄였으며, 0‑shot 언어 이해와 몇 단계 이미지·텍스트 생성 모두에서 기존 방법을 능가한다. 8 B 규모 LLM에 적용했을 때 32 단계만에 MBPP 15.0을 달성해 성능‑효율성의 새로운 파레토 프론티어를 제시한다.

상세 분석

본 논문은 이산 디퓨전 모델의 두 주요 흐름, 즉 마스크 기반 MDLM과 균일 노이즈 기반 UDLM을 하나의 일반화된 프레임워크인 XDLM으로 통합한다. 핵심 아이디어는 시간에 독립적인 정적 노이즈 커널 K를 정의하고, 이를 α와 β 스케줄과 선형 결합해 Qₜ|ₛ = αₜ|ₛ I + βₜ|ₛ K 로 표현하는 것이다. K는 균일 행렬과 마스크 흡수 행렬을 가중치 k와 μ로 혼합한 형태이며, k=0이면 순수 마스크, k=1이면 순수 균일 노이즈가 된다. 이렇게 하면 MDLM과 UDLM이 각각 k의 극한값에서 자연스럽게 재현된다.

메모리 효율성을 위해 저자들은 posterior와 KL을 대규모 행렬 연산 대신 토큰별 스칼라 함수 fₜ(x,e)와 r(e) 로 변환한다. Lemma 3.3·3.4에서 제시된 스칼라 형태는 토큰 수 V에 비례하는 O(V) 연산만 필요하게 하여, 어휘가 수십만에 달하는 실제 언어 모델에서도 GPU 메모리 초과 없이 학습·샘플링이 가능하도록 만든다. 또한 연속 시간 한계(s→t)에서 hₜ 함수가 단순화되는 점을 이용해 수치적 안정성을 확보하였다.

실험에서는 OWT 데이터로 사전학습한 후 7개의 외부 베치마크에서 zero‑shot perplexity를 측정했으며, XDLM은 UDLM보다 평균 5.4 포인트 낮은 PPL을 기록했다. 이미지 생성에서는 4‑step에서 FID 54.1을 달성해 MDLM의 80.8 대비 크게 앞섰으며, 16‑step에서도 UDLM을 약간 앞섰다. 8 B LLM에 지속적 사전학습을 적용한 LLaD‑A‑XDLM은 32 단계만에 MBPP 15.0을 얻어 기존 베이스라인 대비 120 % 이상 향상되었다. 학습 곡선을 보면 MDLM은 초기에 빠르게 수렴하지만 조기 정체를 보이는 반면, XDLM은 지속적인 성능 향상을 보여 장기 스케일링에 유리함을 확인했다.

이러한 결과는 이해(언어 모델링)와 생성(few‑step 샘플링) 사이의 트레이드오프를 정량적으로 개선한 첫 사례이며, 정적 혼합 커널이라는 간단한 설계가 복잡한 시간‑가변 노이즈 스케줄 없이도 두 패러다임을 연결할 수 있음을 증명한다.

이해와 생성의 균형을 잡는 혼합 디스크리트 디퓨전 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기