초고해상도 이미지‑비디오 변환을 위한 사전‑정규화 타일 디퓨전: FrescoDiffusion

본 논문은 초고해상도(4K) 이미지‑투‑비디오 변환, 특히 다중 장면과 다양한 객체가 공존하는 프레스코(fresco)와 같은 복합 이미지에 초점을 맞춘 새로운 방법인 FrescoDiffusion을 제안한다. 기존 확산 기반 I2V 모델은 480~1080p 정도의 네이티브 해상도에서만 효율적으로 동작하며, 고해상도 입력을 그대로 사용하면 세밀한 디테일이 손실되고, 타일링을 적용하면 타일 간 경계에서 전역 레이아웃이 흐트러지는 문제가 있었다. 이러한 한계를 극복하기 위해 저자들은 두 가지 핵심 아이디어를 도입한다. 첫 번째는 “전역 잠재 사전”(global latent prior)이다. 입력 프레스코 이미지를 모델이 학습한 해상도로 리사이즈하고, 기존 I2V 파이프라인을 그대로 사용해 저해상도 비디오를 생성한다. 이 비디오는 잠재 공간(latent space)에서 삼차 보간을 통해 4K 크기로 업스케일된다. 결과적으로 x_prior는 시간·공간 전반에 걸친 구조적 정보를 담고 있어, 고해상도 타일 디퓨전 과정에서 전역적인 흐름을 가이드한다. 두 번째는 타일 디퓨전 결과와 사전을 결합하는 “사전‑정규화 타일 융합”(prior‑regularized tile fusion)이다. 각 타일 i에 대해 모델 f_θ가 예측한 속도 필드 y_i를 얻고, 기존 MultiDiffusion이 사용하는 가중합 ℓ_MD(y★) 대신, 사전과의 차이를 최소화하는 정규화 항 ℓ_prior를 추가한다. 전체 손실은 ℓ_FD(y★;t)=‖√λ⊙(x_4K^t−σ_t y★−x_prior)‖² + ℓ_MD(y★;t) 이며, λ는 사전 강도를 조절하는 가중치 텐서이다. 이 손실은 좌표별로 완전히 분리되고 볼록하므로, 미분 후 0으로 두면 닫힌 형태의 최적 해를 얻는다. y_FD = (σ_t λ⊙(x_4K^t−x_prior) + Σ_i w_i⊙y_i) / (σ_t² λ + Σ_i w_i) 여기서 w_i는 타일 간 시차를 완화하기 위한 가중치 맵이다. λ=0이면 기존 MultiDiffusion과 동일하고, λ>0이면 사전과의 일치도가 강화된다. 또한, λ를 시간에 따라 감소시키는 “게이트 스케줄”(λ_G)과, 전경·배경을 구분하는 이진 마스크 A(p)를 이용한 “지역‑별 사전 강도”(λ_R)도 제안한다. λ_G(t,τ)=λ_base·cos(t·π/2)·1

초고해상도 이미지‑비디오 변환을 위한 사전‑정규화 타일 디퓨전: FrescoDiffusion

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기