확정적 이산 디퓨전 디노이징

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 이산 상태 디퓨전 모델의 역마코프 체인을 무작위성을 없애고, 헤딩 알고리즘 변형을 이용해 결정론적 전이 규칙을 부여하는 방법을 제안한다. 초기 무작위화만 남기고 전체 디노이징 과정을 완전히 결정적으로 수행함으로써 샘플 품질과 효율성을 동시에 향상시킨다. 텍스트·이미지 생성 및 조합 최적화 실험에서 기존 확률적 디노이징 대비 일관된 개선을 보이며, 연속형 디퓨전에서 성공한 결정론적 역과정을 이산 공간에도 적용 가능함을 입증한다.

상세 분석

이 논문은 이산 디퓨전 모델의 핵심 문제인 역마코프 체인의 무작위성에 주목한다. 기존 방법은 각 디노이징 단계에서 예측된 확률분포를 기반으로 Gumbel‑max와 같은 샘플링 기법을 사용해 카테고리 변수를 무작위로 선택한다. 이는 샘플 다양성을 보장하지만, 샘플링 오차가 O(T⁻¹/²) 수준으로 수렴 속도가 느리고, 많은 디노이징 스텝이 필요해 효율성이 떨어진다. 저자들은 이러한 한계를 극복하기 위해 헤딩(Herding) 알고리즘을 이산 디노이징에 직접 적용한다. 헤딩은 연속형 가중치 w와 이산 상태 x를 동시에 업데이트하는 하이브리드 동역학으로, 목표 기대값 µ(=예측 확률 pₜ₋₁)와 현재 샘플의 특징값 차이를 가중치에 누적시킨다. 핵심 업데이트는
xₜ₋₁ = argmaxₓ (wₜ + pₜ₋₁ + δ·xₜ)ᵀx,
wₜ₋₁ = wₜ + pₜ₋₁ – xₜ₋₁ 이다.
여기서 δ는 “지연 전환 마진”으로, 현재 상태와 새로운 후보 사이의 확률 차이가 δ 이하이면 상태 변화를 억제해 과도한 스위칭을 방지한다. 이 메커니즘은 헤딩의 O(T⁻¹) 수렴 특성을 유지하면서도, 시간‑의존적인 전이 확률을 정확히 반영한다는 점에서 기존 확률적 샘플링보다 우수하다.

동역학적으로는 “조각별 등거리(piecewise isometry)”와 “약한 혼돈(weakly chaotic)” 특성을 가진다. 가중치 w는 유계 영역에 머무르며, 작은 초기 변동은 argmax 연산을 통해 큰 변화를 일으킬 수 있어 복잡한 프랙탈 어트랙터를 형성한다. 이러한 특성은 샘플 다양성을 유지하면서도 확률분포에 대한 경험적 평균을 빠르게 수렴시킨다. 또한, 연속형 디퓨전에서 ODE 흐름을 이용한 결정론적 변환과 달리, 이산 경우는 일대일 매핑이 아니지만 “조각별 확률 질량 보존”을 통해 전체 분포를 왜곡 없이 전달한다.

실험에서는 최신 이산 디퓨전 모델인 UDLM(Uniform Diffusion Language Model)을 그대로 사용하고, 역디노이징 루틴만 20줄 정도 수정해 적용했다. 텍스트(예: 위키텍스트)와 이미지(예: CIFAR‑10) 생성에서 동일한 스텝 수 대비 FID·BLEU 점수가 향상되었으며, 샘플링 속도도 30 % 이상 가속화되었다. 또한, 조합 최적화 프레임워크인 DIFUSCO에 적용했을 때 목표 함수값이 확률적 역과정 대비 유의미하게 개선되었다. 이러한 결과는 헤딩 기반 디노이징이 모델 재학습 없이도 “드롭‑인” 방식으로 기존 파이프라인을 강화할 수 있음을 보여준다.

마지막으로 저자들은 이 접근법이 마스크 기반 디퓨전(예: DNDM, LLaDA)에도 확장 가능함을 언급한다. 마스크가 있는 경우에도 가중치와 마스크 상태를 함께 업데이트하면 동일한 결정론적 흐름을 구현할 수 있다. 따라서 이 연구는 이산 디퓨전 모델 전반에 걸쳐 “결정론적 역마코프 체인”이라는 새로운 패러다임을 제시하며, 향후 대규모 언어·그래프·화학 구조 생성에 중요한 기반이 될 것으로 기대된다.

확정적 이산 디퓨전 디노이징

초록

상세 분석

댓글 및 학술 토론

의견 남기기