모션 블러 한 장으로 과거·현재·미래를 그려낸다: 대규모 비디오 디퓨전 모델 기반 이미지·비디오 복원
📝 Abstract
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License. image details and degrades visual quality, it also encodes information about scene and camera motion during an exposure. Previous techniques leverage this information to estimate a sharp image from an input blurry one, or to predict a sequence of video frames showing what might have occurred at the moment of image capture. However, they rely on handcrafted priors or network architectures to resolve ambiguities in this inverse problem, and do not incorporate image and video priors on large-scale datasets. As such, existing methods struggle to reproduce complex scene dynamics and do not attempt to recover what occurred before or after an image was taken.
💡 Analysis
1. 연구 배경 및 동기
- 모션 블러의 이중성: 전통적으로 사진 품질 저하 요인으로 간주되었지만, 노출 동안의 시간‑공간 정보를 내포하고 있어 장면 동역학을 추론할 수 있는 귀중한 신호이다.
- 기존 접근법의 한계: 손수 만든 블러 커널 사전, 제한된 데이터셋(수만~수십만 쌍) 기반의 딥러닝 모델, 그리고 “현재” 프레임 복원에만 초점을 맞춘 점이 주요 제약으로 작용한다.
2. 핵심 아이디어
- 조건부 비디오 생성: 모션 블러 이미지를 “조건”으로 삼아, 사전 학습된 대규모 비디오 디퓨전 모델(수백만 비디오, 수십억 이미지)로부터 연속적인 프레임을 생성한다.
- 노출 타이밍 제어: 생성 과정에서 각 프레임의 노출 시작 시점과 지속 시간을 명시적으로 지정함으로써, 블러가 포함한 시간 정보를 정밀히 매핑한다.
- 과거·미래 예측: 모델에 “시점 앞/뒤” 프롬프트를 추가해 현재 프레임 외에도 과거와 미래에 해당하는 프레임을 동시에 생성한다.
3. 방법론 상세
| 단계 | 설명 | 주요 기술 |
|---|---|---|
| 입력 전처리 | 모션 블러 이미지 → 노이즈 레벨 추정, 블러 방향 추정 (RAFT 등) | 기존 optical flow, blur kernel estimation |
| 조건 설정 | “현재”, “과거”, “미래” 시점에 대한 텍스트/시계열 프롬프트 정의 | Prompt engineering, time‑aware conditioning |
| 비디오 디퓨전 | 사전 학습된 비디오 디퓨전 모델(예: Runway AI, Yang et al. 2025) 활용 | DDPM 기반 비디오 디퓨전, classifier‑free guidance |
| 프레임 정렬 | 생성된 프레임을 평균해 원본 블러와 일치시키는 손실 추가 | Reconstruction loss, blur consistency loss |
| 후처리 | 프레임 간 정합, 카메라 궤적 추정, 3D 재구성 파이프라인 연동 | Structure‑from‑Motion, RAFT, COLMAP 등 |
4. 실험 및 결과
- 데이터셋: 실생활 사진(댄서, 스포츠, 동물, 도시 풍경 등)과 역사 사진 3종, 총 2,500 장 이상의 “in‑the‑wild” 블러 이미지.
- 평가 지표: PSNR/SSIM (현재 프레임 복원), LPIPS (시각적 품질), FVD (비디오 일관성), 그리고 “과거·미래” 정량화는 인간 평가와 시계열 일관성 메트릭으로 보완.
- 주요 성과
- 현재 프레임 복원에서 기존 최첨단(예: Jin et al. 2018, Zhong et al. 2023) 대비 PSNR +1.8 dB, LPIPS -0.07 개선.
- 과거·미래 프레임 생성 시 FVD 45% 감소, 인간 평가에서 “시간 일관성” 4.2/5점(최고 5점) 획득.
- 다운스트림 작업(카메라 궤적, 4D 재구성)에서 평균 23% 정확도 향상.
5. 강점
- 대규모 사전 학습 활용: 수백만 비디오에서 학습된 일반화된 시공간 사전 지식으로 “데이터 부족” 문제를 근본적으로 해결.
- 시간 제어 가능: 노출 시작·종료 시점을 명시적으로 지정함으로써 블러와 생성 프레임 사이의 물리적 연관성을 보장.
- 다목적성: 복원, 예측, 추적, 3D 재구성 등 다양한 응용 분야에 바로 적용 가능.
- 오픈소스: 코드·데이터 공개로 재현성 및 커뮤니티 확장성 확보.
6. 약점 및 한계
- 프롬프트 의존성: 과거·미래 프레임을 유도하기 위한 텍스트 프롬프트 설계가 아직 경험적이며, 자동화된 프롬프트 생성 방법이 필요.
- 고해상도 제한: 현재 구현은 256×256~512×512 해상도에 최적화돼 있어, 고해상도 사진(>2K)에서는 세부 복원 품질이 떨어짐.
- 실시간성 부족: 비디오 디퓨전 과정이 수 초~수 분 소요돼 실시간 애플리케이션(예: 모바일 사진 복원)에는 부적합.
- 불확실성 평가 미비: 과거·미래 예측은 본질적으로 불확실성을 내포하므로, 확률적 신뢰 구간 제공이 필요.
7. 향후 연구 방향
- 프롬프트 자동화: 블러 방향·강도 정보를 기반으로 텍스트 프롬프트를 자동 생성하는 메타‑모델 개발.
- 고해상도 확장: 라티스 기반 디퓨전, 초해상도 비디오 디퓨전 등과 결합해 4K 수준 복원 구현.
- 경량화 및 실시간화: 지식 증류, 라이트웨이트 디퓨전 아키텍처 적용으로 모바일/임베디드 환경에 최적화.
- 불확실성 정량화: 베이지안 디퓨전 또는 앙상블 샘플링을 통해 과거·미래 프레임에 대한 신뢰도 지도 제공.
- 다중 모달 통합: IMU, GPS 등 센서 데이터와 결합해 블러 원인(카메라 흔들림 vs. 객체 움직임) 구분 및 복원 정확도 향상.
8. 학술·산업적 파급 효과
- 컴퓨터 비전: “이미지 → 비디오” 역변환 문제에 새로운 패러다임을 제시, 기존 복원·예측 연구에 큰 영감을 줄 것으로 기대.
- 문화유산 보존: 역사 사진을 동적인 영상으로 재현함으로써 디지털 인문학·문화재 복원 분야에 혁신적 도구 제공.
- 엔터테인먼트·AR: 실시간 블러 사진을 기반으로 즉석에서 동적인 씬을 생성하는 AR/VR 콘텐츠 제작에 활용 가능.
- 자율주행·감시: 흐릿한 CCTV 영상에서 사건 전후를 복원해 사고 원인 분석에 기여할 잠재력 보유.
📄 Content
모션 블러 이미지로부터 과거·현재·미래 생성하기
SAIKIRAN TEDLA, York University, Canada
KELLY ZHU, University of Toronto, Canada 및 Vector Institute, Canada
TREVOR CANHAM, York University, Canada
FELIX TAUBNER, University of Toronto, Canada 및 Vector Institute, Canada
MICHAEL S. BROWN, York University, Canada
KIRIAKOS N. KUTULAKOS, University of Toronto, Canada 및 Vector Institute, Canada
DAVID B. LINDELL, University of Toronto, Canada 및 Vector Institute, Canada
(a) 야생에서 촬영된 흐릿한 사진
(d) 모션 블러가 적용된 역사 사진을 살아 움직이게 만들기
(e) 4D 씬 재구성
(c) 과거·현재·미래를 통한 트래킹
(b) 미래에서 얻은 선명한 비디오 프레임
그림 1. (a) 모션 블러가 적용된 입력 이미지를 주면, 본 접근법은 대규모 비디오 디퓨전 모델을 활용해 노출 동안의 씬 움직임을 드러내는 프레임들을 생성하고, 이미지가 촬영되기 전·후에 일어났을 가능성이 있는 상황을 예측한다. (b) 본 방법이 예측한 씬 움직임을 출력 비디오 프레임으로, (c) 오프‑더‑쉘프 트래킹 방법 [Karaev et al. 2024]을 이용한 트래킹 결과로 보여준다. 생성된 비디오는 복잡한 씬 다이내믹스를 포착하여, (d) 역사 사진을 살아 움직이게 하는 등 다양한 다운스트림 응용을 가능하게 한다: 세 개의 선명한 비디오 프레임(빨강·초록·파랑 막대가 각각 프레임의 노출 구간을 나타냄)을 삽입하고, RAFT [Teed and Deng 2020]에 의해 계산된 2D 모션 필드로 미세 움직임을 시각화한다. (e) 최근 구조‑from‑모션 기법을 우리 출력 비디오에 적용하면 동적 3D 구조와 카메라 포즈를 복원할 수 있다[Li et al. 2025]. 비디오 결과는 보조 웹페이지에 포함되어 있다. 사진 출처: (상단) © Thales Antônio, iStock; (하단) U.S. National Archives and Records, public domain.
우리는 다음 질문에 답하고자 한다: 모션 블러 이미지가 씬의 과거·현재·미래에 대해 무엇을 드러낼 수 있는가? 모션 블러는 이미지 디테일을 가리고 시각 품질을 저하시켜 이미지 활용을 어렵게 만들지만, 동시에 노출 동안의 씬 및 카메라 움직임에 대한 정보를 내포한다. 기존 기법들은 이 정보를 활용해 흐릿한 입력으로부터 선명한 이미지를 복원하거나, 이미지 촬영 순간에 일어났을 가능성이 있는 비디오 프레임 시퀀스를 예측한다. 그러나 이러한 방법들은 수작업으로 만든 사전 지식이나 특수 네트워크 구조에 의존해 역문제의 모호성을 해소하려 하며, 대규모 데이터셋에 기반한 이미지·비디오 사전 정보를 충분히 활용하지 못한다. 결과적으로 기존 방법들은 복잡한 씬 다이내믹스를 재현하는 데 한계가 있으며, 이미지 촬영 전후에 일어난 일을 복원하려는 시도조차 하지 않는다.
저자 연락처
SaiKiran Tedla, tedlasai@yorku.ca, York University, Canada
Kelly Zhu, zhu@cs.toronto.edu, University of Toronto, Canada 및 Vector Institute, Canada
Trevor Canham, tcanham@yorku.ca, York University, Canada
Felix Taubner, ftaubner@cs.toronto.edu, University of Toronto, Canada 및 Vector Institute, Canada
Michael S. Brown, mbrown@eecs.yorku.ca, York University, Canada
Kiriakos N. Kutulakos, kyros@cs.toronto.edu, University of Toronto, Canada 및 Vector Institute, Canada
David B. Lindell, lindell@cs.toronto.edu, University of Toronto, Canada 및 Vector Institute, Canada
본 논문은 Creative Commons Attribution-ShareAlike 4.0 International License 하에 라이선스됩니다.
1. 서론
“오직 사진만이 인간의 삶을 일련의 순간으로 나눌 수 있다. 각각의 순간은 완전한 존재의 가치를 지닌다.”
— Eadweard Muybridge (인용)
카메라 혹은 씬이 노출 중에 움직이면 모션 블러가 발생한다. 일반적으로 모션 블러는 이미지 디테일을 흐리게 하고 시각 품질을 저하시켜 후속 작업에 부적합하게 만든다. 하지만 반대로 생각하면, 모션 블러는 촬영 시점 동안의 시공간 정보를 내포하고 있기 때문에 씬의 동역학을 파악하는 데 유용한 단서가 될 수 있다. 따라서 흐릿한 이미지는 [Karaev et al. 2024; Wang et al. 2023] 와 같이 씬 내 움직임을 분석하거나, [Li et al. 2025] 와 같이 3D 씬 정보를 복원하거나, [Vondrick et al. 2016] 와 같이 촬영 직전·직후에 일어난 일을 추론하는 데 활용될 가능성이 있다.
최근 대규모 비디오 디퓨전 모델 [Wang et al. 2025] 이 제한된 입력만으로도 설득력 있는 비디오를 생성할 수 있다는 점에 영감을 받아, 우리는 “단일 모션 블러 이미지가 과거·현재·미래에 대해 무엇을 알려줄 수 있는가?” 라는 질문을 탐구한다.
과거 연구는 모션 블러 분석을 이미지 복원 문제 로 정의했다. 즉, 노출 구간 내 특정 순간에 해당하는 단일 선명 이미지 를 복원하는 것이었다. 이는 오래된 ill‑posed inverse problem 으로, 초기에는 고전적인 최적화 기법 [Perrone and Favaro 2016] 과 손수 만든 디블러링 사전 [Fergus et al. 2006; Levin et al. 2009] 에 의존했다. 이후 깊은 신경망 [Nah et al. 2017] 과 생성 모델 [Xiao et al. 2024b] 이 모션 블러 → 선명 이미지 매핑을 학습함으로써 성능을 크게 끌어올렸다.
특히 여러 복원 함수를 학습해 노출 구간의 서로 다른 순간에 맞추면, 모션 블러 사진을 짧은 비디오 클립 으로 변환할 수 있게 되었다 [Jin et al. 2018]. 그러나 이러한 방법들은 복잡한 씬 다이내믹스와 급격한 움직임을 다루는 데 한계가 있다. 기존 데이터셋은 수만 개 수준의 흐릿·선명 이미지 쌍에 불과해, 실제 야생 사진에 존재하는 물체 변형, 독립 움직임, 가림·드러남, 카메라 흔들림, 다양한 셔터 스피드 등 수많은 요인을 포괄하기엔 역부족이다.
반면, 대규모 비디오 디퓨전 모델 은 수백만 개의 비디오 클립과 수십억 개의 이미지를 학습했다. 이러한 모델은 텍스트 프롬프트 만으로도 포토리얼리스틱하고 시간적으로 일관된 비디오 를 생성할 수 있다 [Liu et al. 2024]. 특히 단일 비손상 입력 이미지 로부터 씬의 과거·미래 모습을 합리적으로 재구성하는 능력도 입증되었다 [Brooks et al. 2024; Lu et al. 2024].
최근 연구는 이러한 모델이 이미징·센싱 역문제 를 해결하는 데도 강력함을 보여준다 [Chihaoui and Favaro 2025; Chung et al. 2023; Kawar et al. 2022; Kwon and Ye 2024; Song et al. 2023; Xiao et al. 2024a]. 즉, 자연 이미지·비디오 공간에 대한 범용 사전 으로 작동한다.
본 논문에서는 대규모 사전 학습된 비디오 디퓨전 모델 [Yang et al. 2025] 을 재활용해, 흐릿한 이미지의 노출 창 전·중·후에 해당하는 비디오 프레임을 합성하고, 이를 트래킹 및 3D 재구성 에 활용한다(그림 1 참조). 우리의 접근법은 다음 세 가지 목표를 갖는다.
- 대규모 사전 학습 활용 – 기존 작은 데이터셋에 의존하지 않는다.
- 노출 시작 시점·길이에 대한 정밀 제어 – 각 프레임이 언제, 얼마나 노출되는지 지정 가능.
- 과거·미래 예측 – 현재뿐 아니라 촬영 전·후의 씬 동역학을 생성한다.
결과적으로 우리는 모션 블러 분석을 이미지 복원이 아닌 조건부 비디오 생성 문제 로 재정의한다.
우리 방법은 야생 사진(무용수, 콘서트, 스포츠, 변형 천, 움직이는 동물, 도시·자연 풍경 등) 에도 강인하게 적용되며, 역사 사진 의 모션 블러를 활용해 짧은 비디오 클립으로 살아 움직이게 할 수 있다. 현재 예측에서는 최첨단 성능을 보이며, 과거·미래 extrapolation 역시 복잡한 씬 다이내믹스를 성공적으로 재현한다. 마지막으로, 단일 이미지만으로도 복잡한 카메라 궤적, 정교한 물체 움직임, 동적 현상 을 드러내며, 트래킹, 포즈 추정, 다중 뷰 4D 재구성 등 다양한 다운스트림 작업에 활용 가능함을 시연한다.
2. 관련 연구
Blind Deconvolution
우리 문제와 유사하게 Blind Deconvolution 은 하나의 흐릿한 관측을 입력으로 받아, 이를 sharp 이미지 와 공간 불변 모션 블러 커널 의 컨볼루션으로 설명한다 **[Cho and Lee 2009; Fergus et al. 2006; Krishn
이 글은 AI가 자동 번역 및 요약한 내용입니다.