샘플 효율 추정기로 구현한 이산 디퓨전 모델

본 논문은 이산 상태공간에서의 생성 모델링을 위해 라운드‑로빈(noising) 방식을 채택하고, 역확산 과정의 핵심을 단일 사이트 조건부 확률로 전환한다. 이를 위해 샘플 효율이 뛰어난 Neural Interaction Screening Estimator(NeurISE)를 이용해 조건부를 추정한다. 이론적으로는 전방 노이즈 과정의 혼합 오차와 역커널 추정 오차가 최종 샘플 품질에 어떻게 영향을 미치는지를 총변동 거리(TV) 기준으로 정량화했으며…

저자: Karthik Elamvazhuthi, Abhijith Jayakumar, Andrey Y. Lokhov

샘플 효율 추정기로 구현한 이산 디퓨전 모델
본 연구는 이산 상태공간에서 확산 기반 생성 모델을 설계하고, 기존 연속형 확산 모델이 직면한 스코어 함수 정의의 어려움을 회피한다. 저자들은 역확산 과정의 핵심을 “단일 사이트 조건부 확률”이라는 로컬 통계량으로 전환한다. 구체적으로, 전방 마코프 전이 커널 kₙ(σ, σ̃)와 현재 시점의 분포 μₙ(·)를 이용해 베이즈 규칙으로 역전이 커널 k_revₙ을 표현한다. 이때 필요한 비율 μₙ(σ)/μₙ(σ̃)는 바로 σ와 σ̃가 한 좌표만 다를 때의 조건부 확률 비율과 동일하다. 따라서 전역적인 스코어를 추정할 필요 없이, 각 좌표에 대한 로컬 조건부만 정확히 학습하면 역확산을 정확히 구현할 수 있다. 조건부 추정 방법으로는 Neural Interaction Screening Estimator(NeurISE)를 채택한다. NeurISE는 고차 상호작용을 저차원 파라미터로 스크리닝하고, 샘플 복잡도가 로그 수준으로 효율적이다. 이 특성은 이산 변수의 수가 수천에서 수만에 달하는 경우에도 충분히 학습 가능하게 만든다. 전방 노이즈 과정은 Varma 등(2024)의 라운드‑로빈(noising) 스키마를 따른다. 매 시간 단계 n에서 좌표 u = ((n‑1) mod q)+1 를 순차적으로 선택하고, 확률 ε로 그대로 유지하거나 1‑ε로 균등하게 새로운 알파벳을 샘플링한다. 이때 전이 확률은 a = (1‑ε)/p, b = (1‑ε)/p + ε 로 정의된다. 라운드‑로빈 방식은 한 번에 하나의 좌표만 변하게 하여, 각 단계에서 학습해야 할 조건부 비율의 수를 크게 감소시킨다. 특히 이진 알파벳 Σ={‑1, +1}인 경우 식이 단순해져 kₙ과 k_revₙ이 명시적 형태로 제시된다. 이론적 분석은 두 개의 정리와 그 증명을 통해 오류 전파를 정량화한다. 정리 3.1은 전방 과정이 목표 노이즈 분포 μ_noise에 δ_T 만큼 근접했을 때, 역커널 추정 오차 η가 T 단계에 누적되어 최종 총변동 거리 TV(μ̂₀, μ₀) ≤ δ_T + T·η 라는 상한을 제공한다. 이는 전방 혼합 속도와 역커널 학습 정확도가 샘플 품질을 결정한다는 직관을 수학적으로 뒷받침한다. 정리 3.2는 실제 구현 시 μ_noise를 경험적 분포 bμ_noise 로 대체했을 때 발생하는 추가 오차 γ를 포함해 TV ≤ δ_T + T·η + γ 로 확장한다. 이때 γ는 샘플 수 N에 따라 O(1/√N) 수준으로 감소한다는 기존 통계적 결과와 일치한다. 실험 부분에서는 다섯 가지 데이터셋을 사용한다. (1) 25‑변수 합성 Ising 모델: 전방 노이즈 단계 수와 학습 샘플 수를 변형시켜 η와 δ_T가 실제 TV에 미치는 영향을 정밀히 측정한다. (2) 이진 MNIST: 픽셀을 이진화하고 라운드‑로빈 노이즈를 적용해 기존 D3PM, SEDD와 비교한다. (3) D‑Wave 양자 어닐링 데이터: 실제 양자 하드웨어에서 얻은 스핀 구성들을 목표 분포로 삼아, 양자 시스템 특유의 복잡한 상호작용을 학습한다. (4) 합성 Potts 모델: 다중 알파벳(p>2) 상황에서도 NeurISE가 조건부를 정확히 추정함을 보인다. (5) 1차원 양자 시스템: 연속적인 파동함수 대신 이산 스핀 체인 형태로 변환해 적용한다. 모든 실험에서 제안 방법은 총변동 거리, 교차 상관, 커널 밀도 추정(KDE) 등 다중 평가 지표에서 기존 방법들을 일관적으로 앞선다. 특히 ε=0(하드 노이즈) 설정에서는 역확산 단계가 “한 좌표를 해당 조건부에 따라 재샘플링”하는 자동 회귀적 절차와 동일해지며, 이는 별도 AR 모델을 설계하지 않아도 자연스럽게 AR 샘플링을 구현할 수 있음을 의미한다. 결론적으로, 이 논문은 (i) 이산 확산의 역커널을 로컬 조건부 비율로 단순화, (ii) NeurISE를 통한 샘플 효율적인 조건부 추정, (iii) 라운드‑로빈 노이즈가 제공하는 학습·샘플링 효율성, (iv) 오류 전파에 대한 명시적 이론적 경계라는 네 축을 통해 이산 생성 모델링에 새로운 패러다임을 제시한다. 향후 연구는 다변량 알파벳, 연속‑이산 혼합 공간, 그리고 더 복잡한 마스크 스키마와의 결합을 탐색함으로써 적용 범위를 확대할 수 있을 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기