마스크 프롬프트 기반 적외선·가시광 이미지 융합의 새로운 패러다임
초록
CtrlFuse는 적외선과 가시광 이미지를 융합하면서 사용자가 제공하는 마스크 프롬프트를 통해 특정 객체나 영역을 선택적으로 강조할 수 있는 프레임워크이다. 멀티모달 백본, Reference Prompt Encoder(RPE), Prompt‑Semantic Fusion Module(PSFM), 그리고 사전학습된 Segment Anything Model(SAM)을 결합해 프롬프트를 동적으로 인코딩하고, 이를 융합 피처에 명시적으로 주입한다. 이미지 융합 손실과 세그멘테이션 손실을 동시에 최적화함으로써 융합 품질과 다운스트림 세그멘테이션 정확도 모두에서 기존 최첨단 방법들을 능가한다.
상세 분석
CtrlFuse는 기존 적외선·가시광 융합 연구가 “픽셀 수준의 일관성”에만 초점을 맞추고, 실제 응용에서 요구되는 의미론적 제어를 무시한다는 문제점을 정확히 짚어낸다. 이를 해결하기 위해 저자는 두 가지 핵심 모듈을 설계했다. 첫 번째인 Reference Prompt Encoder(RPE)는 사용자가 입력한 마스크를 지원 피처(Infrared 혹은 Visible)와 쿼리 피처(두 모달을 결합한 Ref 이미지) 사이에 삽입한다. 마스크와 피처의 Hadamard 곱을 평균 풀링해 지역 강조 정보를 Ft로 만든 뒤, Ft와 원본 피처를 concat하고 convolution을 적용해 지원 피처(Fsupp)와 쿼리 피처(Fqry)를 만든다. 이후 40개의 learnable query Q를 cross‑attention → self‑attention 순으로 통과시켜 Q′를 얻고, Q′와 Fqry를 다시 cross‑attention → self‑attention에 넣어 최종 프롬프트 P′를 도출한다. 이 프롬프트는 고정된 SAM의 Prompt Encoder에 전달돼 SAM이 요구하는 형태의 임베딩 P로 변환된다.
두 번째 모듈인 Prompt‑Semantic Fusion Module(PSFM)은 기존 융합 피처 F와 SAM이 생성한 마스크 M, 그리고 RPE에서 얻은 프롬프트 P를 결합한다. F를 다운샘플링 후 flatten해 시퀀스 형태(Fseq)로 만든 뒤, cross‑attention을 통해 P와 상호작용시킨다. attention 결과를 view‑reshape → upsample 하여 공간적 피처를 복원하고, 이를 마스크 M과 element‑wise 곱해 최종 프롬프트‑강화 피처 Fp를 만든다. 이렇게 강화된 피처는 원본 융합 피처와 element‑wise addition을 수행해 최종 융합 피처를 생성하고, 디코더를 거쳐 최종 융합 이미지 IF를 출력한다.
학습 단계에서는 이미지 융합 손실 L_fusion(PSNR, SSIM, Nabf 등)과 세그멘테이션 손실 L_seg(예: Dice, Cross‑Entropy)를 동시에 최소화한다. 두 손실이 서로 피드백 루프를 형성해, 세그멘테이션 정확도가 높아질수록 프롬프트가 더 정교해지고, 정교한 프롬프트는 다시 융합 품질을 향상시킨다.
실험에서는 FMB, MSRS, DroneVehicle 등 세 개의 공개 데이터셋을 사용했으며, 8개의 최신 융합·세그멘테이션 기반 방법과 비교했다. 정량 지표에서 PSNR와 Nabf에서 최고 점수를 기록했으며, 특히 “Car”와 같은 특정 클래스에 마스크 프롬프트를 제공했을 때 세그멘테이션 mIoU가 4~6% 상승하는 등 제어 가능성 측면에서도 우수함을 입증했다.
강점으로는 (1) SAM이라는 강력한 제네럴리제이션 기반 세그멘테이션 모델을 프롬프트 튜닝으로 재활용해 별도 라벨링 비용을 최소화, (2) 프롬프트를 명시적으로 융합 피처에 주입해 의미론적 제어를 가능하게 함, (3) 융합과 세그멘테이션을 공동 최적화해 상호 보완 효과를 얻음이 있다. 한계점은 (1) SAM이 고해상도 이미지에 대해 메모리 요구량이 크고, (2) 프롬프트 인코딩 과정이 복잡해 실시간 응용에선 최적화가 필요하며, (3) 현재는 마스크 프롬프트만 지원하므로 텍스트 기반 프롬프트와의 통합은 아직 미구현이다. 향후 연구에서는 경량화된 SAM 변형과 텍스트‑이미지 멀티모달 프롬프트를 결합해 더욱 풍부한 제어 인터페이스를 제공할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기