양자 할당 기반 새로운 생성 모델 NeuroSQL
초록
NeuroSQL은 인코더·디스크리미네이터와 같은 보조 네트워크 없이, 최적 수송 이론에 기반한 양자(quantile) 할당을 통해 잠재 변수를 직접 추정하고 단일 생성기만 학습하는 새로운 딥 생성 프레임워크이다. 선형 할당 문제를 풀어 얻은 잠재 코드를 이용해 이미지 합성을 수행하며, MNIST, CelebA, AFHQ, OASIS 등 네 가지 데이터셋에서 기존 VAE·GAN·Diffusion 모델보다 이미지 품질·학습 시간·데이터 효율성 면에서 우수함을 보였다.
상세 분석
NeuroSQL은 기존 딥 생성 모델이 겪는 두 가지 근본적 한계를 동시에 해소한다. 첫째, VAE와 GAN에서 필수적인 인코더·디스크리미네이터는 고차원 데이터에 직접 작용해야 하므로 학습 불안정성, 모드 붕괴, 높은 계산 비용을 초래한다. NeuroSQL은 이러한 보조 네트워크를 완전히 배제하고, 잠재 변수 Z를 사전에 정의된 다변량 양자 Qₙ와의 일대일 매핑으로 근사한다. 이 매핑은 “잠재 변수는 n→∞ 일 때 Qₙ의 순열에 가깝다”는 수학적 정리를 기반으로 하며, 실제 구현에서는 비용 행렬 Cᵢₖ = ℓ(Xᵢ, Gθ(Qₖ))를 구성해 Hungarian 알고리즘 혹은 O(n²) 그리디 방법으로 최적 순열 π를 찾는다.
두 번째 핵심은 최적 수송(Optimal Transport) 이론을 이용해 다변량 양자를 정의한다는 점이다. 단변량에서는 누적분포함수(F)의 역함수를 이용해 Qₙᵢ = F⁻¹(i/(n+1))를 구하지만, 다변량에서는 “중심-외부(center‑outward) 분포 함수” F±를 사용해 균일 단위 구(ball) 위의 격자 Uᵢ를 P_Z에 매핑한다. 이때 격자는 저불일치(low‑discrepancy) 특성을 갖도록 설계하면, n이 커질수록 Z와 Qₙπ 사이의 L₂ 오차가 거의 0에 수렴한다는 Proposition 1이 보장된다.
학습 절차는 크게 두 단계로 나뉜다. (i) 현재 순열 π가 주어지면, 할당된 잠재 코드 Ẑ = Qₙπ에 대해 생성기 파라미터 θ를 최소화한다. 이는 전형적인 지도학습 손실 L(θ,π)= (1/n)∑ℓ(Xᵢ, Gθ(Ẑᵢ)) + λR(θ)와 동일하다. (ii) 업데이트된 θ를 고정하고, 비용 행렬을 재계산한 뒤 최적 순열을 다시 찾는다. 이 과정을 수렴할 때까지 반복한다. 또한, 순열 업데이트 후 모멘텀 ρ∈
댓글 및 학술 토론
Loading comments...
의견 남기기