오프‑정책 이산 확산 샘플러와 데이터‑투‑에너지 슈뢰딩거 브리지: 잠재공간 활용
초록
본 논문은 이산 공간에서 확산 기반 샘플링을 강화학습의 오프‑정책 기법과 결합한다. 오프‑정책 트레이닝이 샘플 품질을 크게 향상시킴을 보이고, 에너지 함수만으로 정의된 두 분포 사이의 슈뢰딩거 브리지를 학습하는 데이터‑투‑에너지 브리지 알고리즘을 제안한다. 마지막으로, 이러한 샘플러를 이미지 생성 모델의 이산 잠재공간에서 데이터‑프리 사후 추론에 적용한다.
상세 분석
이 논문은 최근 급부상한 연속형 확산 샘플러들의 성공을 이산 도메인에 그대로 옮기려는 시도에서, 기존 연구가 간과한 ‘오프‑정책’ 강화학습 기법을 도입함으로써 근본적인 한계를 극복한다. 저자는 먼저 이산 확산 모델을 마코프 체인 형태로 정의하고, 전방 커널 (p_{\theta})와 역방 커널 (q)를 통해 목표 분포와의 궤적 분포 매칭을 목표로 하는 손실 (L_P)를 제시한다. 여기서 (P)는 학습에 사용되는 궤적 분포이며, 온‑폴리시((P = p_0 \otimes p_{\theta}^{\otimes N}))와 달리 오프‑폴리시 전략을 선택하면 탐색 효율이 크게 개선된다. 구체적으로 세 가지 오프‑폴리시 방식을 제안한다. 첫째, 재생 버퍼(replay buffer)를 이용해 과거 정책의 샘플을 재활용함으로써 정책 변화에 따른 불안정성을 완화한다. 둘째, 중요도 가중치 기반 우선순위 버퍼를 도입해 목표 에너지에 비례하는 궤적을 더 자주 학습에 사용한다. 셋째, 버퍼에 저장된 샘플에 MCMC(예: Metropolis‑Hastings, Gibbs) 탐색을 추가해 에너지 함수만으로도 고밀도 영역을 효율적으로 탐색한다. 이때 MCMC는 모델 파라미터를 전혀 사용하지 않으므로 계산 비용이 낮다.
또한 논문은 ‘데이터‑투‑에너지’ 슈뢰딩거 브리지 문제를 정의한다. 기존 슈뢰딩거 브리지는 두 분포 모두 샘플이 주어지는 데이터‑투‑데이터 설정에 국한되었지만, 여기서는 목표 분포가 에너지 함수 형태로만 주어지는 경우를 다룬다. 이를 위해 연속형 IPF(Iterative Proportional Fitting) 알고리즘을 이산형으로 확장하고, 앞서 정의한 오프‑폴리시 손실을 이용해 전·후방 커널을 교대로 업데이트한다. 최적화 목표는 참조 분포 (Q)와의 KL 발산을 최소화하는 슈뢰딩거 브리지를 찾는 것이며, 이는 기존 연속형 연구와 정확히 일치한다.
실험에서는 기존 합성 베이스라인(예: 이산 마스크 확산, 이산 에너지 기반 샘플러)과 비교해 오프‑정책 버전이 수렴 속도와 샘플 다양성에서 현저히 우수함을 보인다. 특히, 중요도 가중치 버퍼와 MCMC 탐색을 결합한 ‘Hybrid‑Off‑Policy’ 변형은 복잡한 다중 모드 에너지 지형에서도 모드 붕괴 없이 안정적인 샘플을 생성한다. 마지막으로, 사전 학습된 이미지 생성 모델(VAE‑GAN 등)의 이산 잠재공간에 대해 데이터‑프리 사후 추론을 수행한다. 여기서는 에너지 함수가 이미지‑잠재 매핑의 로그우도와 사전 분포의 합으로 정의되며, 제안된 이산 슈뢰딩거 브리지를 통해 고품질의 잠재 샘플을 얻는다. 이는 기존 MCMC 기반 잠재 추론보다 샘플 효율이 2‑3배 향상되는 결과를 보여준다.
핵심 기여는 (1) 오프‑정책 강화학습을 이산 확산 샘플러에 체계적으로 적용한 점, (2) 에너지‑기반 목표 분포에 대한 슈뢰딩거 브리지 학습 프레임워크를 최초로 제시한 점, (3) 이를 실제 고차원 이산 잠재공간에 적용해 데이터‑프리 사후 추론을 가능하게 한 점이다. 이론적 분석과 실험적 검증이 모두 조화를 이루어, 이산 확산 샘플링 분야에 새로운 연구 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기