자기프롬프트와 깊이 인식을 결합한 SAM 기반 인스턴스 분할 모델

자기프롬프트와 깊이 인식을 결합한 SAM 기반 인스턴스 분할 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 Segment Anything Model(SAM)의 수동 프롬프트 의존성을 없애고, 단일 RGB 이미지로부터 추정한 깊이 정보를 활용해 공간 구조 인식을 강화한 SPDA‑SAM을 제안한다. 이미지 인코더와 마스크 디코더에서 자동으로 추출한 의미‑공간 프롬프트(SSSPM)와, 깊이 지도와 RGB 특징을 단계별로 융합하는 Coarse‑to‑Fine RGB‑D Fusion Module(C2FFM)을 결합함으로써 12개 데이터셋에서 기존 최첨단 방법들을 일관적으로 능가한다.

상세 분석

SPDA‑SAM은 SAM의 강력한 일반화 능력을 유지하면서 두 가지 핵심 문제를 해결한다. 첫째, SAM은 프롬프트(점, 박스, 마스크 등)의 품질에 크게 좌우되는데, 이는 인간이 직접 라벨링해야 하는 비용과 오류 위험을 내포한다. 논문은 이를 ‘Semantic‑Spatial Self‑prompt Module(SSSPM)’을 통해 자동화한다. 구체적으로 이미지 인코더의 최종 피처맵을 의미 프롬프트로, 마스크 디코더의 중간 레이어(특히 경계 감지에 민감한 레이어)를 공간 프롬프트로 추출한다. 의미 프롬프트는 전역 컨텍스트를 제공하고, 공간 프롬프트는 객체 경계의 미세 정보를 강조한다. 두 프롬프트는 각각 어텐션 메커니즘에 삽입돼 SAM의 마스크 예측을 자체적으로 가이드한다.

둘째, 기존 인스턴스 분할 모델은 RGB만 사용해 깊이 정보를 손실한다. SPDA‑SAM은 사전 학습된 단일 이미지 깊이 추정 네트워크(MonoDepth)를 이용해 RGB 이미지로부터 깊이 맵을 생성하고, 이를 ‘Coarse‑to‑Fine RGB‑D Fusion Module(C2FFM)’에 투입한다. C2FFM은 크게 Coarse Fusion Block과 네 개의 Fine Fusion Block으로 구성된다. Coarse 단계에서는 깊이 특징을 다운샘플·팽창 컨볼루션·1×1 컨볼루션으로 전처리한 뒤 시그모이드 게이트를 통해 RGB 피처에 가중치를 부여한다. 이는 전역 구조(예: 물체의 실루엣)를 강조한다. Fine 단계에서는 각 Transformer 블록(2,5,8,11)의 RGB와 깊이 피처를 시퀀스 형태로 변환해 교차 어텐션을 수행한다. 여기서 RGB 피처가 쿼리, 깊이 피처가 키·밸류가 되거나 그 반대가 되는 두 개의 어텐션 흐름을 통해 지역적인 깊이 변화를 경계 정보와 결합한다. 이렇게 다중 스케일에서의 융합은 전역‑국부 정보를 조화시켜 정확한 인스턴스 마스크를 생성한다.

학습 측면에서는 SAM의 거대한 파라미터를 그대로 두고, LoRA( Low‑Rank Adaptation) 방식을 적용해 소량의 도메인‑특화 데이터만으로 파인튜닝한다. 이는 파라미터 효율성을 유지하면서도 새로운 환경(수중, 의료, 원격탐사 등)에서 빠르게 적응할 수 있게 한다.

실험에서는 12개 공개 데이터셋(예: Cityscapes, KITTI, USIS‑SAM 등)에서 mAP를 기준으로 기존 최첨단 방법(USIS‑SAM, RSPrompter, UniDet_RVC 등)보다 평균 2~11%p 상승을 기록한다. Ablation study는 (1) SSSPM 없이 C2FFM만 사용했을 때, (2) C2FFM 없이 SSSPM만 사용했을 때, (3) 두 모듈을 모두 제거했을 때 성능 저하를 확인해 각각의 기여도를 정량화한다.

한계점으로는 깊이 지도 품질에 크게 의존한다는 점이다. MonoDepth의 추정 오류가 심한 경우, 특히 반사면이나 투명 물체에서 발생하는 깊이 왜곡은 C2FFM의 게이팅 메커니즘을 오히려 방해할 수 있다. 또한 두 개의 인코더와 다중 어텐션 블록을 추가함으로써 연산량과 메모리 사용량이 증가해 실시간 적용에는 추가 최적화가 필요하다.

전반적으로 SPDA‑SAM은 ‘프롬프트 자동화’와 ‘깊이 기반 멀티모달 융합’이라는 두 축을 결합해 SAM 기반 인스턴스 분할의 실용성을 크게 확대했으며, 향후 경량화와 더 정교한 깊이 추정 모델과의 결합을 통해 실시간 로봇 비전이나 AR/VR 등 다양한 응용 분야에 파급 효과를 기대할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기