셔플 맘바: 무작위 셔플을 활용한 상태공간 모델 기반 다중모달 이미지 융합
초록
본 논문은 기존 Mamba 계열 모델이 고정된 스캔 순서로 인해 발생하는 공간 편향을 무작위 셔플(Random Shuffle)과 역셔플(Inverse Shuffle)으로 해소하고, 이를 기반으로 다중모달 이미지 융합에 최적화된 Shuffle Mamba 프레임워크를 제안한다. 랜덤 셔플은 입력 패치를 무작위 순서로 재배열해 기대값 차원에서 편향 없는 전역 수용 영역을 제공하고, 역셔플은 정보 손실을 방지한다. 또한 Monte‑Carlo 평균을 이용한 테스트 전략을 도입해 추론 시 기대값에 근접한 결과를 얻는다. 실험 결과, 파노라믹‑멀티스펙트럼 융합 및 의료 영상 융합 등 다양한 태스크에서 기존 최첨단 방법들을 능가하는 성능을 보였다.
상세 분석
Shuffle Mamba는 상태공간 모델(SSM)의 선형 시간 복잡도와 장거리 의존성 학습 능력을 유지하면서, 이미지와 같이 2차원 비인과적 데이터를 처리할 때 발생하는 고정 스캔 순서의 편향을 근본적으로 해결한다. 논문은 먼저 기존 Mamba 기반 비전 모델이 토큰을 일렬로 변환하는 과정에서 초기 토큰은 넓은 수용 영역을, 후속 토큰은 제한된 컨텍스트만을 활용하게 되는 ‘스캔 불균형’ 문제를 지적한다. 이를 보완하기 위해 Random Shuffle 단계에서 입력 패치를 무작위 순서로 섞고, 섞인 순서대로 SSM 블록에 투입한다. 무작위화는 기대값 관점에서 모든 위치가 동일한 확률로 전역 정보를 접근하도록 만들며, 역셔플을 통해 출력 후 원래 공간 순서를 복원함으로써 공간 연속성을 보존한다. 이 과정은 추가 파라미터 없이 구현 가능하고, 선형 복잡도를 유지한다는 장점이 있다.
또한 저자는 두 차원의 상호작용을 강화하기 위해 Random Channel Interactive Mamba와 Random Modal Interactive Mamba라는 세부 모듈을 설계했다. 전자는 채널 차원에서 무작위 셔플을 적용해 서로 다른 스펙트럼 밴드 간의 교차 정보를 촉진하고, 후자는 서로 다른 모달리티(예: PAN과 MS, CT와 MRI) 사이의 교류를 촉진한다. 이러한 설계는 전통적인 CNN이 채널 간 의존성을 제한적으로만 학습하던 한계를 극복한다.
테스트 단계에서는 Monte‑Carlo 샘플링을 이용해 여러 번 셔플‑역셔플 과정을 수행하고, 그 평균을 최종 출력으로 채택한다. 이는 추론 시 단일 무작위 샘플에 의존하는 불확실성을 감소시켜 기대값에 근접한 안정적인 결과를 제공한다.
실험에서는 파노샤프닝, 의료 영상 융합 등 두 가지 대표적인 다중모달 융합 태스크에서 PSNR, SSIM, SAM 등 정량 지표와 시각적 품질 모두에서 기존 SSM 기반 모델(Pan‑Mamba) 및 Transformer 기반 모델을 능가하였다. 특히 ERF(Effective Receptive Field) 분석에서 Shuffle Mamba는 평균 ERF 강도가 가장 낮고 분산이 작아, 전역 정보를 고르게 활용함을 시각적으로 입증한다.
전반적으로 이 논문은 고정 스캔 순서가 야기하는 구조적 편향을 무작위 셔플이라는 간단하면서도 이론적으로 타당한 방법으로 제거하고, 이를 다중모달 융합에 적용함으로써 선형 복잡도와 높은 성능을 동시에 달성한 점이 가장 큰 공헌이다.
댓글 및 학술 토론
Loading comments...
의견 남기기