비가우시안 데이터와 비선형 생성기를 위한 최적 워터스테인 GAN 해법
초록
본 논문은 기존 LQG(선형‑제곱‑가우시안) 가정에서 벗어나, 1차원 비가우시안 데이터와 비선형 활성화(sigmoid, ReLU)를 갖는 생성기에 대해 폐쇄형 최적 파라미터를 도출한다. 고차원에서는 슬라이스 워터스테인 거리(SW) 프레임워크를 이용해 선형 생성기가 차원 증가에 따라 점근적으로 최적임을 증명하고, 기존 슬라이스 WGAN이 투영된 마진만 제약하는 한계를 보완한 ‘비투영 슬라이스 WGAN’ 모델을 제안한다. 실험에서는 r‑PCA 대비 선형 복잡도로 동일하거나 더 나은 성능을 확인한다.
상세 분석
논문은 먼저 WGAN의 원래 목적함수 ( \min_{\Theta}\inf_{\pi\in\Pi(\mu,\nu_\Theta)}\mathbb{E}\pi|X-G\Theta(Z)|^q ) 을 인구(population) 수준에서 분석한다. 기존 연구는 (q=2) 와 (d)-차원 가우시안 데이터, 선형 생성기 (G_\Theta(z)=\Theta z) 에 한정했지만, 저자는 (d=1) 에서 비선형 형태 (G_\Theta(z)=\theta_1+\theta_2 h(z)) (여기서 (h) 는 sigmoid 혹은 ReLU)와 임의의 연속형 비가우시안 분포 (\mu) 를 허용한다. 핵심은 누적분포함수(CDF) (F_\mu)와 (h(Z)) 의 역함수 (\Psi^{-1}) 를 이용해 (\operatorname{Cov}(X,\Psi^{-1}(F_\mu(X)))) 와 (\operatorname{Var}(h(Z))) 의 비율로 (\theta_2) 를 직접 구한다. 조건 (\operatorname{Cov}(X,\Psi^{-1}(F_\mu(X)))+\operatorname{Cov}(X,\Psi^{-1}(1-F_\mu(X)))\ge0) 가 만족되면 양의 (\theta_2) 해가, 그렇지 않으면 음의 (\theta_2) 해가 선택된다. 이는 KKT 조건을 이용해 두 개의 서브문제( (\theta_2\ge0) 와 (\theta_2\le0) )를 각각 풀고, 최적값을 비교해 결정한 결과이다.
ReLU의 경우 (\Psi) 가 0에서 점프하는 특수성을 고려해, 조건 (\operatorname{Cov}(X,\Phi^{-1}(F_\mu(X))\mathbf{1}{{F\mu(X)>1/2}})\ge\operatorname{Cov}(X,\Phi^{-1}(F_\mu(X))\mathbf{1}{{F\mu(X)\le1/2}})) 을 도입한다. 이를 만족하면 (\theta_2)는 양수이며, 식 (\theta_2= \frac{2\pi}{\pi-1}\operatorname{Cov}(\cdot)) 로 구한다. 부등식이 반대이면 부호가 바뀐 식이 적용된다.
고차원 확장에서는 슬라이스 워터스테인 거리 (SW_q) 를 사용한다. 데이터와 생성된 샘플을 임의의 단위벡터 (\omega) 에 투영해 1차원 WGAN을 무수히 많은 방향에 대해 평균한다. 기존 슬라이스 WGAN은 투영된 마진 (\mu_\omega) 만을 제약해 원본 다변량 분포와 불일치할 가능성을 지적하고, 저자는 ‘비투영 슬라이스 WGAN’ (\min_\Theta \int_\Omega \inf_{\pi’\in\Pi’(\mu,\nu_\Theta^\omega)}\mathbb{E}{\pi’}| \omega^\top X-\omega^\top G\Theta(Z)|^q d\omega) 을 제안한다. 여기서 (\Pi’(\mu,\nu_\Theta^\omega)) 는 첫 번째 마진이 원본 (\mu) 그대로인 집합이다.
선형 생성기 (G_\Theta(z)=\Theta z) 에 대해, 저자는 고차원 (d\to\infty) 극한에서 (\Theta) 가 (r) 개의 주성분을 잡아내는 r‑PCA와 동일한 역할을 함을 증명한다. 특히, 상한을 이용한 분석을 통해 (\mathbb{E}\omega\operatorname{W}q(\mu\omega,\nu\Theta^\omega)) 가 (O(d^{-1/2})) 로 수렴함을 보이며, 이는 비투영 슬라이스 WGAN에서도 동일하게 적용된다.
실험에서는 1차원에서 가우시안 및 라플라스 분포를 대상으로 제시된 폐쇄형 파라미터가 SGD 기반 학습보다 빠르게 수렴함을 확인했다. 고차원에서는 r‑PCA가 (O(d^3)) 복잡도를 갖는 반면, 제안된 선형 생성기는 (O(d)) 시간에 동일하거나 더 낮은 SW 거리 값을 달성했다. 이는 특히 대규모 데이터와 실시간 시스템에 유리함을 시사한다.
전반적으로 논문은 비가우시안·비선형 설정에서도 WGAN의 최적 해를 명시적으로 구할 수 있음을 보여주며, 슬라이스 기법을 통해 고차원에서도 효율적인 선형 근사 해를 제공한다는 점에서 이론적·실용적 기여가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기