iFSQ: 한 줄 코드로 이미지 생성 토크나이저의 한계 돌파

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이미지 생성에서 이산 토큰 기반 AR 모델과 연속 잠재공간 기반 Diffusion 모델이 서로 다른 토크나이저(VQ‑VAE vs VAE) 때문에 직접 비교가 어려웠다. 본 논문은 기존 FSQ의 tanh 활성화를  y = 2·sigmoid(1.6·x) – 1  로 교체해 가우시안 특성을 균등 분포로 변환함으로써, 동일한 양자화 구간을 100% 활용하고 재구성 오차를 최소화한다. 이 간단한 개선(iFSQ)을 통일된 토크나이저로 사용해 AR과 Diffusion을 공정히 벤치마크했으며, (1) 차원당 약 4 비트가 최적 효율임을, (2) AR은 초기 학습이 빠르지만 Diffusion이 최종 품질에서 우세함을 발견했다. 또한 REPA 기법을 AR에 적용한 LlamaGen‑REPA를 제안한다.

상세 분석

iFSQ는 기존 FSQ(Finite Scalar Quantization)의 근본적인 한계인 “활성 붕괴(activation collapse)”를 수학적으로 해결한다. FSQ는 입력을 tanh으로 제한한 뒤 등간격 양자화를 수행하는데, 이미지 신경망의 활성값은 대체로 가우시안 형태를 띠므로 중앙 구간에 데이터가 몰려 83 % 수준의 bin 활용률만 달성한다. 이는 정보 효율을 크게 저하시키면서도 재구성 정확도는 높아지는 트레이드오프를 만든다. 논문은 이 문제를 “분포 매칭”이라는 관점에서 접근한다. 가우시안 입력을 sigmoid 함수에 스케일링 파라미터 α를 곱해 변환하면, α≈1.6일 때 출력이 거의 균등 분포에 근접한다는 것을 실험적으로 확인한다(그림 2). 이를 통해 y = 2·sigmoid(1.6·x) – 1 로 tanh을 대체하면, 양자화 구간이 동일 확률로 사용되어 100 % 활용률과 3.17 bits(=log₂9)의 엔트로피를 동시에 달성한다.

수식적으로는
1️⃣ 입력 z → 2·σ(1.6·z) – 1 로 변환 →

iFSQ: 한 줄 코드로 이미지 생성 토크나이저의 한계 돌파

초록

상세 분석

댓글 및 학술 토론

의견 남기기