생성형 오토인코더 샘플링 향상을 위한 마코프 체인
본 논문은 변분 오토인코더(VAE)와 적대적 오토인코더(AAE)와 같은 생성형 오토인코더에서, 인코더가 학습하는 잠재 분포 ˆP(Z)와 사전에 정의된 prior P(Z) 사이의 차이로 인해 발생하는 샘플링 품질 저하 문제를 해결한다. 인코더‑디코더를 반복적으로 적용하는 마코프 체인 몬테카를로(MCMC) 샘플링 과정을 제안하여, 임의의 초기 잠재 벡터를 ˆP(Z)로 수렴시킨 뒤 디코더를 통해 보다 현실적인 데이터를 생성한다. 또한, 노이즈를 추가…
저자: Antonia Creswell, Kai Arulkumaran, Anil Anthony Bharath
본 논문은 생성형 오토인코더(Generative Autoencoders, GAE)에서 잠재 공간의 분포 불일치 문제를 해결하기 위해 마코프 체인 몬테카를로(MCMC) 기반 샘플링 방법을 제안한다. VAE와 AAE와 같은 모델은 인코더 Qφ(Z|X)와 디코더 Pθ(X|Z)를 동시에 학습하면서, 잠재 분포를 사전 분포 P(Z)와 가깝게 만들기 위해 L_prior 라는 정규화 손실을 추가한다. 그러나 “soft”하게 제약하기 때문에 실제 인코더가 매핑하는 잠재 분포 ˆP(Z)=∫Qφ(Z|X)P(X)dX 가 P(Z)와 완전히 일치하지 않을 가능성이 크다. 기존 샘플링 방법은 (1) 데이터 샘플을 인코딩 후 디코딩하는 방식과 (2) prior에서 직접 z를 뽑아 디코딩하는 방식이 있다. 첫 번째는 훈련 데이터에 과도하게 의존해 새로운 샘플을 만들기 어렵고, 두 번째는 ˆP(Z)와 P(Z)의 차이로 인해 생성된 이미지가 데이터 분포와 불일치할 위험이 있다.
이를 해결하기 위해 저자들은 다음과 같은 마코프 전이 연산을 정의한다. 임의의 초기 잠재 벡터 z₀∈ℝᵇ를 선택하고, 반복적으로 (1) 디코더를 통해 x_{t+1}∼Pθ(X|z_t) 를 샘플링하고, (2) 인코더를 통해 z_{t+1}∼Qφ(Z|x_{t+1}) 를 샘플링한다. 이 두 단계는 각각 Pθ와 Qφ가 정의하는 조건부 분포를 직접 이용한 Gibbs 샘플링과 동일한 역할을 한다. 이 전이 연산 T는 ˆP(Z) 를 불변 분포로 가지며, 마코프 체인은 ergodic 하다고 가정하면 충분히 많은 반복 후 z_t는 ˆP(Z) 로 수렴한다. 따라서 최종적으로 z∗∼ˆP(Z) 를 얻은 뒤 디코더에 입력하면 P(X)와 일치하는 고품질 샘플을 생성할 수 있다. 초기값을 prior P(Z) 로 잡으면 ˆP(Z)와의 차이가 작아 수렴 속도가 빨라진다.
논문은 또한 디노이징 기반 생성형 오토인코더(DVAE, DAAE)에 이 방법을 확장한다. 디노이징 오토인코더는 입력에 노이즈 C(·|X)를 추가하고 복원하는 과정을 통해 인코더가 Qφ(Z|˜X)를 학습한다. 여기서 MCMC 전이 연산은 “노이즈 → 복원 → 인코딩 → 디코딩” 순환을 포함하도록 수정된다. 즉, 현재 잠재 벡터 z_t에서 디코더로 x_{t+1}을 만든 뒤, 노이즈를 추가해 ˜x_{t+1}∼C(·|x_{t+1}) 로 변형하고, 복원 함수 R(·) 로 원본을 추정한 뒤 인코더에 넣어 새로운 z_{t+1}을 얻는다. 이 과정을 반복하면 노이즈와 복원 과정이 자연스럽게 잠재 공간을 정제하며, ˆP(Z) 로 수렴한다.
실험에서는 MNIST와 CelebA 데이터셋을 사용해 VAE, AAE, DVAE, DAAE 네 모델에 대해 MCMC 샘플링을 적용하였다. 결과는 다음과 같다. (1) 단순 prior 샘플링에 비해 MCMC 후 생성된 이미지가 시각적으로 더 선명하고, 잡음이 감소하였다. (2) 잠재 공간에서 선형 보간을 수행할 때, 기존 방법은 중간에 비현실적인 얼굴 파편이나 안경 색 번짐 같은 아티팩트를 보였지만, MCMC 5단계 후에는 이러한 아티팩트가 사라지고 부드러운 변형이 나타났다. (3) 디노이징 모델에서는 초기 샘플이 일반 VAE와 큰 차이를 보이지 않지만, MCMC 적용 후에는 디노이징 효과가 명확히 드러나, 특히 얼굴 이미지에서 눈 주위의 색 번짐이 사라지고 전체적인 조화가 향상되었다.
논문은 또한 이론적 근거를 제공한다. 전이 연산 T가 상세히 정의된 경우, 상세히 말하면 T(z→z′)=∫Pθ(x|z)Qφ(z′|x)dx 로 표현되며, 이는 상세히 증명된 detailed balance 조건을 만족한다. 따라서 ˆP(Z) 가 stationary distribution 이며, 체인이 irreducible 하고 aperiodic 하면 수렴이 보장된다. 실험적 관점에서 저자들은 수렴 속도를 평가하기 위해 잠재 벡터의 평균 L2 거리와 KL divergence 를 추정했으며, 5~10 단계 내에 대부분의 경우 ˆP(Z) 근처에 도달함을 확인했다.
결론적으로, 본 연구는 생성형 오토인코더에서 잠재 공간의 실제 분포를 직접 샘플링하는 새로운 MCMC 기반 프레임워크를 제시함으로써, 기존의 prior 기반 샘플링보다 더 현실적인 데이터를 생성하고, 디노이징 모델의 장점을 명확히 드러내는 데 성공했다. 이 방법은 기존 모델에 별도의 학습 없이도 적용 가능하므로, 향후 다양한 생성 모델에 쉽게 확장될 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기