시각언어모델 기반 이미지 열화 이해와 복원
초록
본 논문은 이미지 열화를 물리적 파라미터 수준에서 해석하기 위해 계층적 구조 예측을 제안한다. VLM을 자동 회귀 토큰 예측 형태로 통합하고, 멀티모달 체인‑오브‑씽(Chain‑of‑Thought)과 구조화된 강화학습으로 학습한다. 또한 110 k개의 정제된 데이터셋(DU‑110k)을 공개하며, 제안 모델(DU‑VLM)이 사전 학습된 디퓨전 모델을 제로샷으로 제어해 고품질 복원을 달성함을 실험적으로 입증한다.
상세 분석
DU‑VLM은 이미지 열화 이해를 “열화 유형 → 파라미터 키 → 연속값”의 3‑단계 트리플 구조로 정의하고, 이를 하나의 토큰 시퀀스로 변환한다. 논문은 이 변환이 자동 회귀(next‑token) 모델의 최대우도 학습과 동등함을 정리적으로 증명하고, 양자화 그리드 Δ에 의해 오류가 상한된다는 이론적 보장을 제시한다. 이를 기반으로 제안된 손실은 분류 손실과 가우시안 회귀 손실의 합으로 분해되며, KL‑다이버전스와 Pinsker 부등식을 이용해 분류 오류와 회귀 MSE에 대한 상한을 도출한다.
학습 파이프라인은 크게 세 단계로 구성된다. ① Supervised Fine‑Tuning 단계에서는 Qwen‑3‑VL‑8B를 기반으로 멀티모달 입력(원본 이미지, FFT 스펙트럼, 엣지 맵)을 사용해 체인‑오브‑씽 형태의 텍스트 라셔널을 먼저 생성하고, 이를 조건으로 파라미터 토큰을 예측한다. ② Offline Structured RL 단계에서는 “Group Relative Policy Optimization(GRPO)”을 활용해 물리적 일관성을 강화하는 보상 함수를 설계한다. 보상은 무참조 이미지 품질 지표(MUSIQ)와 파라미터 정밀도(정규화 L2) 등을 결합한 복합 형태이며, 파라미터 값이 양자화 그리드에 맞게 정렬되도록 유도한다. ③ Online Self‑Supervised RL 단계에서는 실제 배포 환경에서 발생하는 미지의 열화에 적응하도록, 모델이 자체 생성한 라벨을 이용해 지속적으로 업데이트한다.
데이터 측면에서 저자들은 DU‑110k라는 대규모 벤치마크를 구축한다. 물리 기반 시뮬레이션(대기산란, Retinex, 가우시안 블러, 바이큐빅 다운샘플링)으로 110 k개의 깨끗‑열화 이미지 쌍을 생성하고, 인간 검증을 통해 시각적 비현실성을 제거한다. 각 샘플은 열화 유형, 파라미터 키, 연속값(스칼라·벡터·맵)으로 구성된 트리플을 포함한다. 데이터는 4개의 열화 카테고리(야간, 안개, 블러, 저해상도)로 균등 분포되며, 학습‑검증‑테스트 비율은 103k‑4k‑3k이다.
실험에서는 DU‑VLM이 기존 VLM 기반 디스크립션 모델(DA‑CLIP, Q‑bench 등)과 일반 이미지 복원 프레임워크에 비해 유형 분류 정확도와 파라미터 회귀 RMSE에서 10‑15% 이상 우수함을 보인다. 특히 제안된 파라미터를 사전 학습된 Stable‑Diffusion에 직접 입력함으로써, 별도 파인‑튜닝 없이도 높은 PSNR/SSIM을 달성한다. 다양한 도메인(실제 야간 촬영, 교통 카메라, 드론 영상)에서의 제로샷 테스트에서도 견고한 성능을 유지한다.
한계점으로는 (1) 현재는 4가지 기본 열화만 다루며, 복합 열화(예: 야간+안개)에는 별도 조합 전략이 필요하고, (2) 양자화 그리드 Δ가 작을수록 토큰 길이가 늘어나 학습 효율이 저하될 수 있다. 또한 강화학습 보상이 이미지 품질 지표에 크게 의존하므로, 새로운 도메인에서는 보상 설계가 추가 작업을 요구한다. 향후 연구에서는 다중 열화 조합 모델링, 양자화 효율 개선, 그리고 비지도 방식의 파라미터 추정 방법을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기