벡터 양자화의 새로운 패러다임 적응형 벡터 교란 VAE
초록
VP‑VAE는 학습 시 명시적 코드북을 사용하지 않고, 메트로폴리스–헤이스팅 기반의 적응형 교란을 통해 양자화 오류를 모방한다. 이를 통해 코드북 붕괴와 훈련 불안정을 해소하고, 추론 단계에서만 코드북을 생성한다. 또한 균일한 잠재 분포 가정 하에 경량화된 FSP 방식을 제안해 FSQ와 같은 고정 양자화기의 성능을 이론적으로 설명하고 실험적으로 개선한다.
상세 분석
본 논문은 VQ‑VAE가 직면한 두 가지 근본적인 문제, 즉 인코더‑디코더와 코드북 사이의 상호 의존성으로 인한 학습 불안정과 코드북 붕괴 현상을 새로운 관점에서 접근한다. 저자들은 양자화 과정을 “잠재 공간에 삽입되는 구조화된 교란”으로 재해석하고, 학습 단계에서는 실제 이산 코드북 대신 교란 연산 T(z;S)를 적용한다는 핵심 아이디어를 제시한다. 여기서 S는 최근의 잠재 벡터를 저장한 FIFO 큐이며, 메트로폴리스–헤이스팅 샘플링을 이용해 고밀도 영역 내부에서 교란을 생성한다. 교란의 스케일은 목표 코드북 크기 K에 따라 자동 조정되는데, 이는 |S|/K번째 최근접 이웃 거리 D_M(z|S)에 비례하도록 설계된다. η라는 하이퍼파라미터가 교란 강도를 미세 조정한다. 이러한 설계는 두 가지 요구조건을 동시에 만족한다. 첫째, 교란 크기가 실제 양자화 오류와 일치하도록 스케일을 맞춤으로써 디코더가 추론 시 발생할 양자화 손실에 강인하도록 훈련된다. 둘째, 교란이 잠재 분포의 고밀도 영역에 머무르도록 함으로써 비현실적인 잠재 샘플을 생성하지 않는다. 고차원 잠재 공간의 밀도 추정 어려움을 극복하기 위해 저자들은 d≤16 차원의 저차원 양자화 병목을 도입한다. 토큰 특성 h_t를 선형 다운프로젝션 P↓를 통해 d 차원 z로 압축하고, 교란 후 다시 업프로젝션 P↑를 거쳐 디코더에 입력한다. 이 구조는 밀도 추정의 정확성을 유지하면서도 재구성 품질을 보존한다.
추가적으로, 잠재 변수가 거의 균일하게 분포한다는 가정 하에 FSP(Finite Scalar Perturbation)라는 경량 변형을 도출한다. FSP는 각 차원을 독립적인 스칼라 양자화로 간주하고, 중앙에 위치한 교란을 적용한 뒤 구간 중심값을 사용해 양자화한다. 이는 Lloyd‑Max 최적 스칼라 양자화와 동일한 원리를 갖으며, 기존 FSQ와 LFQ와 같은 고정 격자 양자화기의 비효율성을 이론적으로 설명한다. 실험 결과, 이미지와 오디오 데이터셋에서 VP‑VAE와 FSP는 재구성 PSNR/SSIM을 크게 향상시키고, 코드북 사용률을 90% 이상으로 균등하게 유지한다. 특히 코드북 붕괴가 관찰되던 베이스라인 대비 토큰 사용의 편향이 현저히 감소했으며, 학습 과정에서의 손실 진동도 크게 완화되었다.
전반적으로 이 논문은 “양자화 = 교란”이라는 직관적 yet 수학적으로 정당화된 관점을 제시함으로써, 코드북 학습을 완전히 분리하고 추론 시에만 코드북을 구성하는 새로운 훈련 패러다임을 제공한다. 메트로폴리스–헤이스팅 기반 교란 생성, 스케일 자동 조정, 저차원 병목 설계 등은 서로 보완적으로 작용해 기존 VQ‑VAE의 근본적인 한계를 극복한다. 또한 FSP를 통해 고정 양자화기의 이론적 한계와 실용적 개선 방안을 동시에 제시함으로써, 향후 디스크리트 표현 학습 및 토큰 기반 생성 모델에 중요한 영향을 미칠 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기