원격탐사 영상 눈에 띄는 객체 탐지를 위한 적응형 시각 상태공간 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 광학 원격탐사 이미지(ORSI)에서의 Salient Object Detection(SOD) 문제를 해결하기 위해, 장거리 의존성을 포착하면서 지역 특징을 강화하는 상태공간 모델 기반 네트워크 ASCNet을 제안한다. 멀티레벨 컨텍스트 모듈(MLCM)과 적응형 패치별 시각 상태공간(APVSS) 블록을 도입해 전역·국부 정보를 효과적으로 융합하고, 동적 적응 그라뉼러리 스캔(DAGS)과 그라뉼러리 인식 전파 모듈(GPM)으로 스캔 방식을 유연하게 조절한다. 실험 결과, 두 주요 ORSI‑SOD 벤치마크에서 최신 방법들을 앞선 성능을 기록한다.

상세 분석

ASCNet은 기존 ViT‑CNN 하이브리드 구조가 겪는 전역‑국부 특징 불균형 문제를 상태공간 모델(SSM)이라는 새로운 패러다임으로 접근한다. 핵심은 Visual State Space Encoder(VSSE)로, 다중 스케일 피처를 추출하면서 선형 복소수 행렬 연산을 통해 장거리 의존성을 효율적으로 학습한다. 이때 MLCM은 그래프 신경망(GNN) 기반 토폴로지‑어웨어 어텐션을 적용해 서로 다른 레벨의 피처를 교차 연결하고, 구조적 관계를 명시적으로 모델링한다. 결과적으로 저대비·다중 스케일 객체 경계가 명확히 구분된다. 디코더 단계의 APVSS 블록은 두 서브모듈로 구성된다. GPM은 전역 토큰을 이용해 지역 토큰을 조건부로 조정하고, 게이팅 메커니즘을 통해 전역‑국부 정보 흐름을 균형 있게 만든다. DAGS는 기존의 균일 스캔을 탈피해, 입력 피처를 해상도‑인식 블록으로 분할하고, 각 블록 내부에서 다방향(전·후·좌·우) 스캔을 수행한다. 스캔 가중치는 내용에 따라 동적으로 조정되므로, 긴 형태의 객체나 복잡한 텍스처에서도 세밀한 공간 의존성을 포착한다. 이러한 설계는 Mamba 기반 모델이 겪는 “이미지 시퀀스화에 따른 국부 구조 파괴” 문제를 효과적으로 보완한다. 실험에서는 ORSSD와 EORSSD 두 데이터셋에서 F‑measure, MAE, E‑measure 등 다중 지표에서 기존 ViT‑CNN 혼합 모델(예: HFANet, ADSTNet)보다 평균 2~4%p 상승한다. Ablation 연구는 MLCM, GPM, DAGS 각각이 독립적으로 성능 향상에 기여함을 확인한다. 다만, 상태공간 블록 자체가 아직 연산량이 크고, 고해상도 이미지에 적용할 경우 메모리 부담이 존재한다는 점은 향후 경량화 연구가 필요함을 시사한다.

원격탐사 영상 눈에 띄는 객체 탐지를 위한 적응형 시각 상태공간 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기