베타 VAE의 정보 붕괴와 분리 실패
초록
β‑VAE에서 β를 크게 늘리면 KL 정규화 압력이 과도해져 인코더 이득이 수축하고, 잠재 변수와 실제 생성 요인 간의 상호 정보가 급격히 사라진다. 이 현상을 “정보 붕괴”라 부르며, MIG·SAP 같은 분리 평가 지표가 무의미해지는 근본 원인이다. 논문은 선형‑가우시안 모델을 통해 β>1일 때 정착점이 B→0, I(X;V)→0임을 증명하고, 재구성 손실에 L2 가중치 λ를 추가한 λβ‑VAE가 이 붕괴를 완화함을 실험적으로 확인한다.
상세 분석
본 논문은 β‑VAE의 핵심 문제인 “고‑β 붕괴”를 정보 이론적 관점에서 정량화한다. 먼저 관측 변수 Y와 잠재 요인 V 사이를 선형 변환 Γ와 가우시안 잡음으로 모델링하고, 인코더를 B와 잡음 공분산 Σ_W 로, 디코더를 A와 Σ_Z 로 표현한다. 이 설정에서 잠재 변수 X와 요인 V의 결합 공분산 Σ(X,V) 은 B·Γ·Σ_V 에 의해 결정되며, 이는 바로 I(X;V) 를 좌우한다. β‑VAE의 목표는 ELBO에 β·KL(q‖p) 를 가중치로 추가하는데, β>1이면 KL 항이 과도하게 강조되어 인코더 이득 B 가 반복적인 정착 조건에서 (I_m + Aᵀ(Σ_Z⁻¹/β)A)⁻¹ Aᵀ(Σ_Z⁻¹/β) 형태로 업데이트된다. 여기서 β⁻¹가 곱해지면서 B 의 스펙트럼 노름이 기하급수적으로 감소한다. 논문은 Lemma 3.1 과 Theorem 3.2 를 통해 β>1이면 B→0, Σ_W→I_m 로 수렴하고, 결국 I(X;V)→0 인 “정보 붕괴” 상태에 도달함을 증명한다.
이때 MIG와 SAP 같은 평가 지표는 각각 S_{i,j}= (BΓΣ_V)²_{i,j}/((BΣ_YBᵀ+Σ_W){i,i}·Σ_V{j,j}) 와 I(X_i;V_j)=−½log(1−S_{i,j}) 로 정의되므로 B 가 사라지면 S_{i,j}와 I(X_i;V_j) 모두 0이 된다. 따라서 지표 자체가 의미를 상실하고, 실제로는 잠재 공간이 완전히 무관해진 상황을 반영한다.
이를 해결하기 위해 논문은 λβ‑VAE 를 제안한다. 기존 ELBO에 λ·‖Y−ĤY‖² 를 추가함으로써 재구성 손실을 KL 정규화와 분리한다. λ가 존재하면 정착 조건에서 M = (Σ_Z⁻¹ + 2λI_n)/β 로 바뀌고, B = (I_m + AᵀMA)⁻¹ AᵀM 로 업데이트된다. 여기서 2λI_n 항은 β⁻¹에 의해 발생하는 수축을 완화하는 댐핑 역할을 하여 B 가 0 으로 수렴하는 것을 방지한다. 이론적으로는 λ>0 일 때 B 의 스펙트럼 하한이 존재함을 보이며, 실험에서는 dSprites, Shapes3D, MPI3D‑real 데이터셋에서 λβ‑VAE 가 β 를 크게 늘려도 MIG·SAP·I_m 점수가 유지되고 재구성 오류도 크게 악화되지 않음을 확인한다.
핵심 인사이트는 다음과 같다. (1) β‑VAE의 고‑β 현상은 단순히 재구성 품질 저하가 아니라 잠재 채널 자체의 정보 소실이다. (2) 선형‑가우시안 모델을 통한 정밀 분석이 실제 비선형 딥 네트워크에서도 동일한 메커니즘이 작동함을 뒷받침한다. (3) 정규화와 재구성을 명시적으로 분리하는 두 파라미터(β, λ) 설계가 정보 붕괴를 방지하고 안정적인 분리 학습을 가능하게 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기