한층만으로 충분한 사전학습 시각 인코더 이미지 생성 적용

초록

본 논문은 사전학습된 시각 인코더를 저차원 잠재공간으로 효율적으로 변환하는 Feature Auto‑Encoder(FAE)를 제안한다. 두 개의 디코더를 연계해 원본 피처를 복원하고, 복원된 피처를 이미지 생성기에 입력함으로써 단일 어텐션 레이어만으로도 고품질 이미지 생성이 가능함을 보인다. DINO·SigLIP 등 다양한 셀프‑슈퍼바이즈드 인코더와 확산 모델·정규화 흐름에 적용했을 때, ImageNet 256×256에서 CFG 사용 시 FID 1.29, 비사용 시 FID 1.48 등 최첨단 성능을 달성한다.

상세 요약

FAE는 사전학습된 비전 인코더가 제공하는 고차원, 이해‑지향 피처와 생성 모델이 요구하는 저차원, 노이즈‑전달형 잠재공간 사이의 구조적 불일치를 해결한다는 점에서 혁신적이다. 기존 접근법은 복잡한 손실 함수(예: KL‑divergence, contrastive loss)와 다중 레이어의 변환 네트워크를 도입해 피처와 잠재공간을 맞추려 했지만, 이는 학습 비용을 증가시키고 불안정성을 초래한다. FAE는 두 단계 디코더 구조를 채택한다. 첫 번째 디코더는 고차원 피처를 그대로 복원하도록 학습되며, 이는 인코더가 학습한 의미 정보를 손실 없이 보존한다. 두 번째 디코더는 복원된 피처를 입력으로 받아 저차원 잠재코드를 생성하고, 이를 기존 확산 모델 혹은 정규화 흐름에 그대로 연결한다. 핵심은 이 두 디코더 사이에 단일 어텐션 레이어만을 삽입함으로써 차원 축소와 정보 전달을 동시에 수행한다는 점이다. 어텐션 레이어는 고차원 피처의 다양한 가설을 저차원 표현에 효율적으로 압축하면서도, 생성 과정에서 필요한 노이즈 주입을 방해하지 않는다. 실험에서는 DINO와 SigLIP을 각각 인코더로 사용했을 때, FAE가 기존 VAE‑기반 변환보다 2배 이상 빠른 수렴 속도를 보이며, FID와 IS 지표에서 현저히 높은 성능을 기록한다. 특히 80 epoch만 학습했음에도 불구하고 비조건부 생성에서 FID 2.08을 달성, 데이터 효율성 측면에서도 큰 장점을 가진다. 또한, 텍스트‑조건부 생성에서도 CLIP‑텍스트와의 자연스러운 결합이 가능함을 확인했다. 이러한 결과는 고차원 이해 피처를 저차원 생성 잠재공간으로 매핑하는 과정이 복잡한 구조 없이도 충분히 구현될 수 있음을 입증한다.

초록

상세 요약

📜 논문 원문 (영문)