다중 복원을 위한 손상 인식 프롬프트 상태공간 모델 DPMambaIR
초록
DPMambaIR는 정밀한 손상 추출기와 손상‑인식 프롬프트 상태공간 모델(DP‑SSM)을 결합해 하나의 네트워크로 잡음, 흐림, 비, 눈, 저조도 등 7가지 복합 손상을 동시에 복원한다. 손상 임베딩을 동적 프롬프트로 활용해 SSM의 핵심 파라미터(Δ, B, C)를 실시간 조정하고, 고주파 강화 블록(HEB)으로 세밀한 텍스처를 회복한다. 혼합 데이터셋에서 PSNR 27.69 dB, SSIM 0.893을 기록하며 기존 All‑in‑One 방법들을 크게 앞선다.
상세 분석
본 논문은 All‑in‑One 이미지 복원의 두 가지 근본적 한계를 정확히 짚는다. 첫째, 기존 프롬프트 기반 방법은 손상을 정수형 라벨이나 고정 토큰으로만 표현해 연속적인 손상 강도와 공간적 변동성을 포착하지 못한다. 둘째, 대부분의 모델이 파라미터를 고정한 채 입력 특성에만 프롬프트를 부가적으로 결합하기 때문에, 서로 상충되는 복원 목표(예: 잡음 억제 vs. 저조도 증폭)를 동시에 만족시키기 어렵다.
DPMambaIR은 이러한 문제를 ‘정밀 손상 추출기’를 통해 해결한다. 이 추출기는 자체 재구성 손실을 이용해 손상 이미지에서 연속적인 임베딩을 회귀한다. 임베딩은 손상 종류와 강도를 동시에 인코딩하며, 차원은 512로 설계돼 충분한 표현력을 제공한다.
핵심 혁신은 DP‑SSM이다. 기존 Vision‑Mamba가 사용하던 고정 A, B, C, Δ 파라미터 대신, 손상 임베딩을 입력으로 받아 Δ(시간 스텝), B(입력 투사), C(출력 매핑)를 동적으로 재파라미터화한다. Δ는 ODE 통합 스텝을 조절해 ‘관성’과 ‘이득’ 사이를 전환한다. 예를 들어, 고노이즈 상황에서는 작은 Δ를 선택해 상태 변화를 천천히 진행, 잡음이 과도하게 증폭되는 것을 방지한다. 반대로 저조도·희미한 신호에서는 큰 Δ를 적용해 빠른 응답을 유도, 어두운 영역을 효과적으로 밝힌다. B와 C의 조절은 외부 관측(입력 이미지)과 내부 상태(전역 손상 프라임) 간의 상호작용 강도를 제어한다. 이러한 동적 파라미터 모듈은 손상별 최적의 전이 다이내믹스를 학습하게 하여, 하나의 네트워크가 다양한 물리적 손상 모델을 내재적으로 시뮬레이션하도록 만든다.
또한, All‑in‑One 복원에서 흔히 발생하는 저주파 편향을 보완하기 위해 고주파 강화 블록(HEB)을 도입한다. HEB는 경량 CNN 구조와 채널‑별 어텐션을 결합해, DP‑SSM이 전역적인 흐름을 잡아내는 동안 손실된 미세 텍스처를 복원한다.
실험 설계는 7가지 손상(노이즈, 블러, JPEG 압축, 비, 눈, 저조도, 레인)으로 구성된 혼합 데이터셋을 사용했다. 동일한 학습/검증 프로토콜 하에 DPMambaIR은 기존 MoE 기반 모델(MoFME)과 프롬프트 기반 모델(OneRestore, AdaIR)를 모두 능가했으며, 특히 저조도·비·눈 상황에서 PSNR·SSIM 격차가 두드러졌다. Ablation study에서는 손상 임베딩 없이 고정 Δ, B, C를 사용했을 때 성능이 1.2 dB 이상 감소함을 보여, 동적 파라미터 조정의 효과를 실증했다.
계산 복잡도 측면에서도 Vision‑Mamba 기반 설계 덕분에 O(N) 선형 연산을 유지하면서도, 파라미터 재조정 비용은 임베딩 차원에 비례하는 작은 MLP 몇 층으로 제한돼 실시간 적용이 가능하다.
요약하면, DPMambaIR은 (1) 연속적인 손상 표현, (2) 손상‑조건부 상태공간 파라미터 모듈, (3) 고주파 보강이라는 세 축을 결합해 All‑in‑One 이미지 복원의 정확도와 효율성을 동시에 끌어올렸다. 이는 향후 멀티‑도메인 복원, 비디오 복원, 그리고 손상 인식 기반 이미지 편집 등에 확장 가능한 설계 원칙을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기