정책 탐색 기반 이산 변분 오토인코더
초록
본 논문은 이산 잠재 변수를 갖는 변분 오토인코더(VAE)의 학습에서 재파라미터화 없이 자연스러운 그래디언트를 얻기 위해 강화학습의 정책 탐색 기법을 차용한다. 비파라메트릭 목표 분포를 닫힌 형태로 구하고, 이를 KL‑제한 신뢰구역 안에서 파라메트릭 인코더에 가중 최대우도 방식으로 전달한다. 자동 단계 크기 조정과 트랜스포머 기반 인코더를 결합해 ImageNet 수준의 고해상도 이미지 재구성을 성공적으로 수행하며, 기존 Gumbel‑Softmax, VQ‑VAE, REINFORCE 기반 방법들을 능가한다.
상세 분석
이 논문은 이산 잠재 변수를 활용한 VAE가 직면한 두 가지 핵심 난제—재파라미터화 불가능성 및 고차원 데이터에서의 높은 그래디언트 분산—를 정책 탐색(Policy Search) 프레임워크로 해결한다. 저자들은 ELBO를 “엔트로피 정규화된 반환” 형태로 재해석하고, 이를 최대 엔트로피 강화학습 문제와 동등시킨다. 구체적으로, 현재 인코더 (q_\theta(z|x)) 를 기반으로 샘플 (z_k) 와 로그우도 (\log p_\phi(x|z_k)) 를 얻은 뒤, 반환 (R(z_k,x)=\log p_\phi(x|z_k)+\beta\log p(z_k)) 에 대해 소프트맥스 기반 어드밴티지 (A(z_k,x)=R(z_k,x)-\log\sum_{j}\exp R(z_j,x)) 를 계산한다.
그 다음 REPS(Relative Entropy Policy Search)에서 차용한 KL‑제한 최적화 문제를 풀어 비파라메트릭 목표 분포 (q^*(z|x)) 를 얻는다. 이때 신뢰구역 파라미터 (\eta) 는 효과적 샘플 크기(ESS)를 목표값에 맞추어 자동으로 조정한다. 비파라메트릭 업데이트는
\
댓글 및 학술 토론
Loading comments...
의견 남기기