광학과 SAR 이미지 정합을 위한 다중전문가 학습 프레임워크와 상태공간 모델

광학과 SAR 이미지 정합을 위한 다중전문가 학습 프레임워크와 상태공간 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 광학 이미지와 SAR 이미지의 정합 문제를 해결하기 위해, 다양한 변환을 적용한 다중전문가 학습 구조와 선형 복잡도의 상태공간 모델(Mamba)을 결합한 ME‑SSM 프레임워크를 제안한다. 소량의 텍스처와 비선형 복사 차이를 극복하기 위해 소프트 라우터 기반의 동적 특성 융합과 다중 방향 교차 스캔 전략을 도입했으며, 다중 레벨 피처 집합 모듈(MFA)로 다중 스케일 정보를 강화한다. 실험 결과, SEN1‑2와 OS 데이터셋에서 기존 방법 대비 정합 정확도가 크게 향상되었다.

상세 분석

ME‑SSM은 크게 세 가지 핵심 구성요소로 이루어진다. 첫째, 다중전문가 학습 프레임워크(MELF)는 입력 이미지를 회전·축반전·스케일 변환 등 다양한 아핀 변환으로 전처리한 뒤, 각각에 대해 별도의 전문가 네트워크(예: CNN, ViT, Mamba)를 통해 특징을 추출한다. 이때 각 전문가의 출력은 동일 차원의 텐서로 정규화되며, 학습 가능한 소프트 라우터가 각 전문가에 대한 가중치를 동적으로 할당한다. 라우터는 입력 이미지의 통계적 특성(예: 텍스처 강도, 스펙트럼 분포)을 기반으로 gating score를 계산하고, 가중합을 통해 최종 공유 특징 맵을 생성한다. 이렇게 하면 텍스처가 부족하거나 복사 차이가 큰 영역에서도 다양한 변환을 통해 보강된 정보를 얻을 수 있다.

둘째, 전역 컨텍스트 학습을 위해 상태공간 모델인 Mamba를 도입한다. Mamba는 기존 트랜스포머와 달리 선형 복잡도로 전체 시퀀스(이미지 패치)를 처리할 수 있는 SSM 구조를 사용한다. 논문에서는 다중 방향 교차 스캔(multi‑directional cross‑scanning) 전략을 적용해, 이미지 행·열을 각각 좌→우, 우→좌, 상→하, 하→상 네 방향으로 순차적으로 스캔하면서 상태 전이를 수행한다. 이 과정에서 장거리 의존성을 효율적으로 포착하고, 복잡도는 O(N) 수준으로 유지된다. 결과적으로 광학과 SAR 이미지 사이의 전역 구조 차이를 정밀하게 매핑할 수 있다.

셋째, MFA 모듈은 Mamba 내부에서 다양한 해상도의 피처를 계층적으로 통합한다. 저해상도에서 추출된 전역 컨텍스트와 고해상도에서 얻은 세부 텍스처 정보를 상호 보완적으로 결합함으로써, 정합에 필요한 정밀한 위치 정보와 전반적인 변형 정보를 동시에 제공한다.

실험에서는 두 개의 공개 데이터셋(SEN1‑2, OS)에서 다양한 해상도와 변형 조건을 설정하고, 기존 CNN‑기반, Dilated‑CNN, Transformer 기반 모델과 비교하였다. 정량적 지표인 Correct Matching Rate(CMR)에서 1‑pixel, 3‑pixel 임계값 모두에서 각각 7.14%·1.95%(SEN1‑2)와 2.12%·0.84%(OS) 향상을 기록했다. 또한 파라미터 수와 FLOPs 측면에서도 Mamba 기반 구조는 Transformer 대비 30% 이하의 연산량으로 동등하거나 우수한 성능을 보였다.

전반적으로 ME‑SSM은 (1) 변환 기반 다중전문가 학습으로 텍스처 부족 문제를 완화, (2) 선형 복잡도 SSM으로 전역 컨텍스트를 효율적으로 학습, (3) 다중 스케일 피처 집합으로 정합 정확도를 극대화한다는 세 가지 장점을 결합한다. 이러한 설계는 광학‑SAR와 같은 고비대역, 비선형 복사 차이가 큰 멀티모달 정합 문제에 특히 유용하며, 향후 다른 센서(예: LiDAR, 초분광)에도 확장 가능할 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기