초고해상도 이미지‑비디오 변환을 위한 사전‑정규화 타일 디퓨전: FrescoDiffusion

FrescoDiffusion은 4K 수준의 복잡한 이미지(프레스코)를 단일 프레임에서 고해상도 비디오로 변환하는 훈련‑무료 방법이다. 저해상도 비디오를 사전(latent prior)으로 생성하고, 이를 고해상도 타일 디퓨전 과정에 정규화 항으로 결합해 전역 일관성을 유지하면서 세밀한 디테일을 보존한다. 가중치 스케줄링과 영역‑별 마스크를 통해 움직임이 허용되는 영역과 고정 영역을 구분하고, 창의성‑일관성 트레이드‑오프를 제어한다. VBench‑…

저자: Hugo Caselles-Dupré, Mathis Koroglu, Guillaume Jeanneret

초고해상도 이미지‑비디오 변환을 위한 사전‑정규화 타일 디퓨전: FrescoDiffusion
본 논문은 초고해상도(4K) 이미지‑투‑비디오 변환, 특히 다중 장면과 다양한 객체가 공존하는 프레스코(fresco)와 같은 복합 이미지에 초점을 맞춘 새로운 방법인 FrescoDiffusion을 제안한다. 기존 확산 기반 I2V 모델은 480~1080p 정도의 네이티브 해상도에서만 효율적으로 동작하며, 고해상도 입력을 그대로 사용하면 세밀한 디테일이 손실되고, 타일링을 적용하면 타일 간 경계에서 전역 레이아웃이 흐트러지는 문제가 있었다. 이러한 한계를 극복하기 위해 저자들은 두 가지 핵심 아이디어를 도입한다. 첫 번째는 “전역 잠재 사전”(global latent prior)이다. 입력 프레스코 이미지를 모델이 학습한 해상도로 리사이즈하고, 기존 I2V 파이프라인을 그대로 사용해 저해상도 비디오를 생성한다. 이 비디오는 잠재 공간(latent space)에서 삼차 보간을 통해 4K 크기로 업스케일된다. 결과적으로 x_prior는 시간·공간 전반에 걸친 구조적 정보를 담고 있어, 고해상도 타일 디퓨전 과정에서 전역적인 흐름을 가이드한다. 두 번째는 타일 디퓨전 결과와 사전을 결합하는 “사전‑정규화 타일 융합”(prior‑regularized tile fusion)이다. 각 타일 i에 대해 모델 f_θ가 예측한 속도 필드 y_i를 얻고, 기존 MultiDiffusion이 사용하는 가중합 ℓ_MD(y★) 대신, 사전과의 차이를 최소화하는 정규화 항 ℓ_prior를 추가한다. 전체 손실은 ℓ_FD(y★;t)=‖√λ⊙(x_4K^t−σ_t y★−x_prior)‖² + ℓ_MD(y★;t) 이며, λ는 사전 강도를 조절하는 가중치 텐서이다. 이 손실은 좌표별로 완전히 분리되고 볼록하므로, 미분 후 0으로 두면 닫힌 형태의 최적 해를 얻는다. y_FD = (σ_t λ⊙(x_4K^t−x_prior) + Σ_i w_i⊙y_i) / (σ_t² λ + Σ_i w_i) 여기서 w_i는 타일 간 시차를 완화하기 위한 가중치 맵이다. λ=0이면 기존 MultiDiffusion과 동일하고, λ>0이면 사전과의 일치도가 강화된다. 또한, λ를 시간에 따라 감소시키는 “게이트 스케줄”(λ_G)과, 전경·배경을 구분하는 이진 마스크 A(p)를 이용한 “지역‑별 사전 강도”(λ_R)도 제안한다. λ_G(t,τ)=λ_base·cos(t·π/2)·1

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기