적응형 정보 융합을 통한 무학습 원격탐사 변화 탐지
초록
본 논문은 사전 학습된 시각 기반 모델(SAM‑HQ, DINOv3, DGTRS‑CLIP)을 결합한 무학습(Open‑Vocabulary) 변화 탐지 프레임워크 AdaptOVCD를 제안한다. 데이터‑레벨의 적응형 방사선 정렬(ARA), 특징‑레벨의 적응형 변화 임계값(ACT), 의사‑레벨의 적응형 신뢰도 필터링(ACF) 세 가지 모듈을 통해 방사선 차이, 전역 차이 분포, 텍스트‑이미지 의미 일치를 각각 보정한다. 9개 시나리오에서 기존 무학습 방법을 크게 앞서며, 완전 지도 학습 상한의 84.89% 성능을 달성한다.
상세 분석
AdaptOVCD는 “수직적·수평적” 이중 차원의 다중 레벨 정보 융합 구조를 채택한다는 점에서 기존 연구와 차별화된다. 수직적으로는 데이터, 특징, 의사 결정이라는 세 단계에서 각각 독립적인 처리 흐름을 유지하면서, 각 단계의 출력이 다음 단계의 입력으로 전달되는 피라미드형 파이프라인을 구성한다. 수평적으로는 ARA, ACT, ACF라는 적응형 모듈을 도입해 각 단계에서 발생할 수 있는 오류 전파를 사전에 억제한다.
데이터 레벨에서는 방사선 차이 보정을 위해 원본 텍스처와 통계적 방사선 정보를 혼합하고, 이를 SAM‑HQ에 입력해 고해상도 경계 정보를 보존한 세그멘테이션을 얻는다. 이 과정은 원격탐사 이미지 특유의 조도·센서 변동을 최소화해 이후 단계의 특징 비교 정확도를 높인다.
특징 레벨에서는 DINOv3의 시멘틱 불변성을 활용해 전역 차이 분포를 추정하고, 에지 구조 프라이어와 결합해 변화 영역의 경계 강도를 동적으로 조정한다. ACT는 차이 히스토그램을 기반으로 자동 임계값을 설정함으로써 고정 임계값 방식이 초래하는 과다·과소 검출 문제를 해결한다.
의사 결정 레벨에서는 DGTRS‑CLIP을 이용해 텍스트 프롬프트와 이미지 특징을 정렬하고, ACF가 의미적 신뢰도와 공간적 연속성을 동시에 고려해 최종 변화 마스크를 정제한다. 특히, 텍스트‑이미지 매칭 점수를 공간적 마스크와 곱해 불확실한 영역을 자동으로 억제한다는 점이 주목할 만하다.
실험에서는 9개의 서로 다른 지형·시즌·센서 조합을 포함한 베이스라인을 구축했으며, AdaptOVCD는 기존 무학습 방법(예: Zero‑Shot CD, Prompt‑CD 등)을 평균 12%p 이상 앞섰다. 교차 데이터셋 평가에서는 완전 지도 학습 모델에 근접한 84.89% 성능을 기록, 모델 일반화 능력이 뛰어남을 입증한다. 또한, 파라미터를 전혀 업데이트하지 않음에도 불구하고 텍스트 기반 임의 카테고리 탐지가 가능해 실제 현장 적용 시 라벨링 비용을 크게 절감할 수 있다.
한계점으로는 SAM‑HQ와 DINOv3가 원본 자연 이미지에 최적화돼 있어 고해상도 위성 영상에서 세밀한 경계 손실이 발생할 수 있으며, ACF의 공간 제약 파라미터가 데이터셋마다 민감하게 변한다는 점이 있다. 향후 연구에서는 도메인 특화 파인튜닝 없이도 이러한 파라미터를 자동 조정하는 메커니즘을 도입하고, 비정형 텍스트 프롬프트(예: “새로운 건축물”)에 대한 견고성을 강화할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기