잠재 강제: 픽셀‑공간 확산을 위한 새로운 순서 설계

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 이미지 토크나이저의 손실을 없애면서도 라티스 확산 모델의 효율성을 유지하는 “Latent Forcing” 기법을 제안한다. 라티스와 픽셀을 각각 독립적인 노이즈 스케줄로 동시에 확산시켜 라티스가 저주파 구조를 먼저 제공하고, 이후 픽셀이 고주파 디테일을 복원하도록 순서를 재조정한다. ImageNet 실험에서 기존 픽셀‑공간 트랜스포머 기반 확산 모델을 크게 능가하는 성능을 기록한다.

상세 분석

Latent Forcing은 기존 라티스 확산(Latent Diffusion)과 픽셀‑공간 확산(Pixel Diffusion)의 장점을 결합한 새로운 설계이다. 핵심 아이디어는 두 개의 독립적인 시간 변수 t_latent 과 t_pixel 을 도입해, 라티스와 픽셀을 동시에 노이즈에 섞은 뒤 서로 다른 스케줄로 디노이징한다는 점이다. 라티스는 일반적으로 저주파, 전역적인 구조 정보를 담고 있기 때문에, t_latent 을 빠르게(높은 SNR) 복원하도록 설계한다. 이렇게 하면 디코더 단계에서 고해상도 픽셀을 생성하기 전에, 모델이 이미 전반적인 형태와 의미적 구성을 “스크래치패드” 형태의 라티스로 확보한다.

수식 (3)에서 제시된 O(t_global) 은 각 모달리티의 SNR 비율을 기반으로 한 정보 공개 순서를 정의한다. 라티스와 픽셀의 SNR 곡선을 비중첩하게 배치하면 P(Y)·P(X|Y) 형태의 분해가 가능해지며, 여기서 Y 는 결정론적 라티스(예: DINOv2 특성)이고 X 는 최종 이미지이다. 즉, 라티스가 먼저 생성된 뒤 픽셀이 조건부로 복원되는 구조가 자연스럽게 형성된다.

시간 스케줄을 조정하는 f_α‑shift(t) 함수(식 4)는 라티스의 스케일링을 노이즈 스케줄에 매핑하는 방법을 제공한다. α>1이면 라티스가 더 빨리 노이즈가 감소하도록 하여, 라티스가 “먼저” 제공되는 효과를 만든다. 이러한 스케줄링은 기존 라티스 디퓨전에서 토크나이저의 압축률을 전역적으로 조절하던 방식과 달리, 타임스텝 별로 압축 정도를 동적으로 제어한다는 점에서 혁신적이다.

모델 아키텍처는 기존 DiT( diffusion transformer )에 최소한의 변경만을 가한다. 라티스와 픽셀 토큰을 동일한 위치에 병합하고, AdaLN에 두 개의 시간 임베딩을 입력한다. 필요에 따라 마지막 M 개의 트랜스포머 레이어를 라티스와 픽셀 전용 M/2 레이어로 분리해 전문가(expert) 구조를 구현한다. 라티스는 DINOv2 혹은 Data2Vec2‑Large와 같은 사전학습된 비지도 표현을 사용해 16×16 패치 수준으로 추출한다. 픽셀은 256×256 이미지에 대해 16×16 패치(768 차원)로 변환한다. 두 모달리티의 분산을 맞추기 위해 라티스 값을 전역적으로 스케일링한다.

학습 목표는 식 (1)과 같이 라티스와 픽셀 각각에 대한 ℓ₂ 손실을 가중합한 형태이며, λ_i 는 각 모달리티의 중요도에 따라 조정한다. 추론 시에는 전역 타임 t_global 을 지정하고, t_latent = f_latent(t_global), t_pixel = f_pixel(t_global) 을 통해 두 스케줄을 동기화한다. Euler 단계에서 각 모달리티의 노이즈를 업데이트하고, 최종적으로 t_global=1 일 때 라티스는 폐기되고 픽셀만 남아 이미지가 완성된다.

실험 결과는 ImageNet‑1k(256×256)에서 기존 DiT‑B/2(조건부) 대비 FID ≈ 3.2 포인트 개선, 무조건부에서도 유사한 향상을 보였다. 특히 라티스가 먼저 제공될 때 학습 안정성이 크게 증가하고, 고주파 디테일 복원 과정에서 노이즈가 적게 남는 것이 확인되었다. 또한, 라티스 품질(PSNR·SSIM)과 “diffusability”(SNR 기반) 사이의 상관관계를 분석해, 라티스가 고품질일수록 픽셀 디노이징이 더 효율적임을 입증했다.

이 논문은 “조건 순서”가 확산 모델의 학습 난이도와 최종 성능에 미치는 영향을 정량적으로 보여준다. 라티스와 픽셀을 별도 스케줄로 다루는 접근은 토크나이저 손실을 없애면서도 라티스가 제공하는 전역적 구조 정보를 활용할 수 있게 해, 엔드‑투‑엔드 이미지 생성 파이프라인을 단순화한다. 향후 연구에서는 라티스 종류를 다양화하거나, 텍스트·오디오와 같은 다중 모달리티에 동일한 스케줄링을 적용해 멀티모달 생성 모델을 확장할 가능성이 있다.

잠재 강제: 픽셀‑공간 확산을 위한 새로운 순서 설계

초록

상세 분석

댓글 및 학술 토론

의견 남기기