원격탐사 이미지 객체 탐지를 위한 다중모달 프롬프트 기법
초록
본 논문은 원격탐사 분야의 개방형 어휘 객체 탐지에서 텍스트 프롬프트만 사용하는 기존 방식의 한계를 지적하고, 시각 프롬프트와 텍스트 프롬프트를 동시에 활용하는 다중모달 프롬프트 프레임워크 RS‑MPOD를 제안한다. 시각 프롬프트 인코더를 통해 예시 객체의 외관 정보를 추출하고, 이를 텍스트 프롬프트와 융합하는 멀티모달 팰시션 모듈을 도입해 카테고리 지정의 안정성을 높인다. 다양한 원격탐사 벤치마크에서 시각 프롬프트는 의미적 모호성과 도메인 이동에 강인함을 보였으며, 멀티모달 프롬프트는 텍스트 정보가 충분히 정렬된 경우에도 경쟁력 있는 성능을 유지한다.
상세 분석
RS‑MPOD는 GroundingDINO를 기반으로 한 프롬프트‑조건형 검출 파이프라인에 세 가지 프롬프트 방식을 통합한다. 첫째, 기존 텍스트 프롬프트는 카테고리 명칭을 토큰화하고 텍스트 백본(예: BERT)으로 임베딩해 시퀀스 형태의 프롬프트 Pk를 생성한다. 둘째, 시각 프롬프트 인코더는 변형 가능한 어텐션(Deformable Attention)을 활용해, 학습 데이터에 존재하는 각 카테고리의 임의의 GT 박스를 공간적 프롬프트로 변환한다. 위치 인코딩을 MLP에 통과시켜 얻은 e_k와 학습 가능한 콘텐츠 벡터 c_k를 결합한 r_k가 다중 스케일 피처에 어텐션을 적용해 z_k를 만들고, 이를 FFN에 통과시켜 단일 벡터 v_k를 얻는다. 이 v_k는 텍스트 프롬프트와 달리 외관 기반의 카테고리 표현으로, 텍스트가 불명확하거나 사전 학습 코퍼스와 도메인 차이가 큰 경우에도 강건하게 작동한다. 셋째, 멀티모달 프롬프트 융합 모듈은 텍스트 토큰 시퀀스 G_k와 시각 벡터 v_k를 교차 어텐션으로 결합한다. 학습 가능한 쿼리 u_k가 두 모달리티의 정보를 집계해 최종 카테고리 프롬프트 P_k를 만든다. 이 설계는 텍스트와 시각 정보가 서로 보완하도록 유도하면서도, 각 모달리티가 독립적으로 학습될 수 있게 한다. 학습 단계는 텍스트 프롬프트만 사용해 기본 검출기를 학습한 뒤, 시각 프롬프트 인코더를 고정된 이미지 백본 위에 추가 학습하고, 마지막으로 멀티모달 융합 모듈을 학습한다. 손실은 기존 DETR‑스타일 매칭 기반의 분류 손실(L_cls)과 박스 회귀 손실(L_1, L_giou)의 가중합이다. 실험에서는 표준 원격탐사 데이터셋(DOTA, HRSC)뿐 아니라 교차‑데이터셋 전이와 미세‑분류(예: 차량 종류) 상황을 평가했다. 시각 프롬프트는 텍스트가 모호한 “건물” vs “주택” 같은 경우에도 외관 유사도에 기반해 정확히 구분했으며, 도메인 이동(다른 센서, 해상도)에서도 성능 저하가 최소였다. 멀티모달 프롬프트는 텍스트와 시각이 모두 충분히 제공될 때 가장 높은 mAP를 기록했으며, 텍스트만 사용할 때보다 3~5%p 향상을 보였다. 전체적으로 RS‑MPOD는 텍스트‑중심의 개방형 어휘 탐지 한계를 보완하고, 시각 프롬프트와 멀티모달 융합을 통해 원격탐사 특유의 카테고리 불확실성을 효과적으로 완화한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기