멀티프레임 원시 이미지 복원과 초고해상도 생성 모델
GenMFSR은 원시 Bayer 버스트 데이터를 정렬·합성하고, 고주파 디테일을 생성하기 위해 사전 학습된 확산 모델을 활용하는 최초의 생성 기반 멀티프레임 초해상도 파이프라인이다. 고주파 전용 점수 증류(HF‑VSD) 손실을 도입해 저주파 구조는 데이터 손실로 보존하고, 고주파 텍스처만을 생성함으로써 색상·형태 왜곡을 방지한다.
저자: Harshana Weligampola, Joshua Peter Ebenezer, Weidi Liu
GenMFSR 논문은 모바일 카메라 파이프라인에서 원시 Bayer 버스트 데이터를 직접 입력으로 받아, 노이즈 제거, 디모자이킹, 정렬, 초해상도 복원을 하나의 통합 모델로 수행하는 새로운 접근법을 제시한다. 기존 ISP는 순차적이고 손실이 큰 모듈식 구조를 가지고 있어, 센서 레벨의 미세 정보를 충분히 활용하지 못한다. 또한, 현재 멀티프레임 초해상도 방법은 대부분 결정론적 회귀에 의존해 저주파는 복원하지만 고주파 텍스처는 “와시”하게 만들며, GAN 기반 방법은 불안정한 학습과 색상·형태 왜곡을 초래한다.
GenMFSR은 이러한 문제점을 두 가지 핵심 기술로 해결한다. 첫 번째는 멀티프레임 정렬을 위해 각 프레임에 Spatial Transformer Network(STN)를 삽입한 Encoder를 설계한 것이다. STN은 원시 도메인에서 직접 글로벌 호모그래피를 추정해 프레임 간 비강체 움직임을 보정한다. 이를 통해 외부 옵티컬 플로우 네트워크 없이도 픽셀 수준 정밀 정렬이 가능해, 저주파 구조가 정확히 복원되는 기반을 제공한다. 두 번째는 고주파 전용 점수 증류(HF‑VSD) 손실이다. 기존 VSD는 전체 이미지에 대해 확산 모델의 점수 ∇ₓ log p(x)를 적용해 저주파까지 변형시키므로, sRGB에 사전 학습된 확산 모델을 원시 데이터에 그대로 적용하면 색상·형태 왜곡(도메인 충돌)이 발생한다. 논문은 고역 필터 h(u,v) 로 정의된 투영 연산 P_H 를 사용해 점수 그라디언트를 고주파 성분에만 제한한다. 즉, ∇ₓ L_HF‑VSD = P_H(∇ₓ L_VSD) 로 정의해 저주파는 데이터 손실(L_data) 에 의해 고정하고, 고주파는 확산 모델이 생성하도록 만든다. 이 방식은 베이즈 관점에서 측정 연산 A의 널스페이스(고주파)와 범위공간(저주파)을 명확히 구분해, 사전 확산 모델이 데이터 우도와 경쟁하지 않도록 보장한다.
모델 구조는 크게 세 부분으로 나뉜다. (1) 멀티프레임 원시 인코더(E_θ) – STN을 내장해 각 프레임을 정렬하고, 33채널(선형화된 Bayer) 볼륨을 생성한다. (2) 라티스 매핑 – 정렬된 볼륨을 사전 학습된 확산 모델의 라티스 공간으로 직접 매핑한다. 여기서는 VAE 디코더를 동결하고, LoRA 적응을 통해 파라미터 수를 최소화한다. (3) 확산 디코더(D_θ) – 고주파 텍스처를 생성하며, HF‑VSD 손실을 통해 저주파 구조는 데이터 손실에 의해 유지된다. 전체 학습 목표는 L_total = L_data + λ L_HF‑VSD 로, L_data는 MSE와 LPIPS를 포함해 저주파 색상·구조를 정확히 복원하고, L_HF‑VSD는 고주파 디테일을 자연스럽게 합성한다.
실험에서는 실제 손떨림 궤적을 시뮬레이션해 만든 정밀 버스트 데이터셋을 사용했다. 정량 지표(LPIPS, NIQE, PSNR)와 정성 평가에서 GenMFSR은 기존 Burstormer, MFSR‑GAN 등과 비교해 현저히 높은 인지 품질을 보였으며, 특히 고주파 텍스처가 자연스럽게 복원되는 동시에 저주파 색상·형태 왜곡이 거의 없었다. 또한, 한 번의 전방 패스로 추론이 가능해 모바일 디바이스에 적용 가능한 실시간 성능을 달성했다.
논문의 주요 기여는 다음과 같다. ① 원시 멀티프레임 초해상도를 위한 최초의 생성 기반 파이프라인 제시. ② 고주파 전용 점수 증류(HF‑VSD) 손실을 도입해 저주파와 고주파를 명확히 분리. ③ STN을 내장한 센서‑도메인 정렬 및 라티스 매핑 구조 설계. ④ 실제 손떨림을 반영한 정밀 버스트 데이터셋 구축 및 광범위한 실험 수행. 향후 연구는 비강체 복잡한 움직임, 동적 장면, 하드웨어 최적화 등을 통해 모바일 카메라 ISP에 실시간 적용하는 방향으로 확장될 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기