파동렛 기반 마스크 이미지 모델링을 이용한 색상 일관 HDR 비디오 복원

파동렛 기반 마스크 이미지 모델링을 이용한 색상 일관 HDR 비디오 복원
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 파동렛 도메인에서 마스크 이미지 모델링(W‑MIM)을 적용해 색상 복원을 강화하고, 시간 일관성을 위해 Temporal Mixture of Experts(T‑MoE)와 Dynamic Memory Module(DMM)을 도입한 WMNet을 제안한다. 두 단계 학습 전략과 새롭게 정리한 HDRTV4K‑Scene 데이터셋을 통해 색 정확도와 시간적 안정성에서 기존 방법들을 크게 능가한다.

상세 분석

WMNet은 HDR 비디오 복원을 위해 크게 두 가지 혁신을 제시한다. 첫 번째는 파동렛 도메인에서 수행되는 마스크 이미지 모델링(W‑MIM)이다. 기존의 공간‑도메인 마스킹은 높은 마스크 비율(예: 90%)을 적용해도 색상 분포에 큰 영향을 주지 못한다는 실험적 관찰에 기반한다. 저자는 2‑D Haar 파동렛 변환을 이용해 입력 LDR 프레임을 저주파(L)와 고주파(H) 성분으로 분해하고, 고주파 성분에 전부 0 마스크(Ω_z)를, 저주파 성분에는 점진적으로 증가하는 랜덤 마스크(Ω_r)를 적용한다. 이 과정은 색상 정보를 고주파에 크게 의존한다는 사실을 활용해, 모델이 색상 복원과 세부 디테일 재구성을 동시에 학습하도록 강제한다. 또한 커리큘럼 러닝을 도입해 저주파 마스크 비율을 0에서 0.5까지 서서히 증가시킴으로써, 초기에는 색상 복원에 집중하고 점차 복잡한 구조를 학습하도록 설계하였다.

두 번째 혁신은 시간적 일관성을 위한 두 모듈이다. T‑MoE는 동일 스케일의 잔차 블록 출력들을 여러 전문가(Expert) 네트워크에 전달하고, 각 프레임에 대해 가중치를 동적으로 학습한다. 이를 통해 인접 프레임 간 정보를 효율적으로 융합해 플리커링을 감소시킨다. DMM은 장기 의존성을 포착하기 위해 씬‑레벨 메모리를 구축한다. 메모리 슬롯은 현재 프레임의 특징과 유사도 기반으로 선택·업데이트되며, 선택된 컨텍스트는 다시 특징 강화에 사용된다. 이 설계는 배치 내부 혹은 전체 데이터셋 수준에서 발생할 수 있는 씬 간 간섭을 최소화하고, 긴 영상에서도 일관된 색·디테일을 유지한다.

학습은 두 단계로 진행된다. Phase I에서는 W‑MIM을 이용해 자체 복원(self‑reconstruction) 과제를 수행하며, 인코더‑디코더 구조가 색상·디테일 복원 능력을 사전 학습한다. Phase II에서는 사전 학습된 가중치를 초기화값으로 사용해 HDR 복원 목표에 맞게 미세 조정하고, T‑MoE와 DMM을 삽입해 시간적 일관성을 강화한다.

데이터 측면에서 저자는 기존 HDRTV4K 데이터셋을 씬 단위로 재구성해 HDRTV4K‑Scene을 만들고, 장시간 씬을 포함한 HDRTV4K‑LongScene을 추가 제공한다. 이는 씬 기반 학습·평가가 가능하도록 하여, 메모리 기반 방법의 효과를 보다 정확히 검증한다.

실험 결과는 PSNR‑L, HDR‑VDP‑3, 컬러 차이 ΔE 등 다양한 정량 지표와 시각적 평가에서 WMNet이 기존 최첨단 방법들을 크게 앞선다는 것을 보여준다. 특히 컬러 정확도와 시간적 플리커링 감소에서 현저한 개선을 보이며, 제안된 W‑MIM이 색상 복원에 미치는 기여가 입증된다.

전반적으로 WMNet은 파동렛 기반 마스크 학습과 전문가·메모리 기반 시간 융합을 결합함으로써, HDR 비디오 복원에서 색상 일관성과 시간적 안정성을 동시에 달성한 점이 큰 의의이다.


댓글 및 학술 토론

Loading comments...

의견 남기기