양방향 교차 인식 기반 무학습 원어휘 의미분할 프레임워크
초록
본 논문은 고해상도 원격탐사 영상에서 복잡한 경계와 밀집된 지물들을 정확히 구분하기 위해, CLIP과 DINO 두 개의 비전 기반 모델을 상호 보완적으로 결합한 무학습(open‑vocabulary) 의미분할 프레임워크 SDCI를 제안한다. 핵심은 (1) 양방향 주의 맵 교환을 통한 Cross‑Model Attention Fusion(CAF), (2) 구조‑및 의미 그래프를 활용한 Bidirectional Cross‑Graph Diffusion Refinement(BCDR), (3) 초저레벨 슈퍼픽셀 토폴로지를 이용한 Convex‑Optimization 기반 Superpixel Collaborative Prediction(CSCP)이다. 실험 결과, 기존 최첨단 방법들을 크게 능가하며, 특히 경계 정밀도가 크게 향상됨을 보였다.
상세 분석
SDCI는 두 개의 독립적인 백본, 즉 텍스트‑이미지 연계 제로샷 분류에 강점이 있는 CLIP과, 고해상도 이미지의 구조적 정보를 풍부히 보존하는 DINO를 동시에 활용한다. 첫 단계인 CAF에서는 CLIP과 DINO 각각의 Transformer 블록에서 추출한 self‑attention 맵을 평균화한 뒤, 서로의 최종 레이어에 주입한다. 구체적으로 CLIP의 평균 attention(A_avg) 를 정규화·대칭화 후 ReLU와 ℓ1‑정규화를 거쳐 DINO의 V값에 곱함으로써 구조적 선행 정보를 반영하고, 반대로 DINO의 최종 attention(A_N,dino) 을 CLIP의 마지막 피처에 동일 방식으로 주입한다. 이 양방향 주입은 “one‑way injection”의 한계를 넘어, 의미와 구조가 동시에 강화된 초기 로그잇을 생성한다.
다음 단계인 BCDR에서는 두 개의 그래프를 명시적으로 구성한다. CLIP 피처를 ℓ2‑정규화 후 코사인 유사도로 연결해 만든 의미 그래프 T_clip 은 K‑최근접 이웃 스파스화와 온도 스케일링(τ=0.07)을 통해 전이 행렬을 얻는다. DINO 피처로부터는 유사한 방식으로 구조 그래프 T_dino 를 만든다. 이후 양쪽 로그잇을 각각 해당 그래프에 랜덤 워크 형태로 확산시키며, 의미 그래프는 구조적 불일치를 보정하고, 구조 그래프는 의미적으로 분리된 영역을 병합한다. 이 과정은 수 차례 반복되며, 각 반복마다 양쪽 로그잇이 서로의 확산 결과를 교차 피드백함으로써 전역적인 일관성을 확보한다.
마지막으로 CSCP는 초저레벨 슈퍼픽셀을 이용해 경계 정밀도를 크게 끌어올린다. 원본 이미지에 SLIC‑like 알고리즘으로 생성된 슈퍼픽셀 집합을 토대로, 각 슈퍼픽셀을 하나의 변수로 보는 이진 라벨 최적화 문제를 정의한다. 목표 함수는 (1) CLIP‑DINO 양쪽에서 얻은 확률 로그잇의 평균, (2) 슈퍼픽셀 내부의 라벨 일관성을 강제하는 총변형 에너지, (3) 라벨 스무딩을 위한 TV‑norm 항을 포함한다. 이 convex‑optimization 문제는 ADMM 혹은 Primal‑Dual 알고리즘으로 효율적으로 풀리며, 최종 라벨은 슈퍼픽셀 경계에 정확히 맞춰진 형태로 출력된다.
실험에서는 ISPRS Vaihingen, Potsdam, DeepGlobe 등 3개의 공공 원격탐사 세그멘테이션 벤치마크를 사용했으며, mIoU와 Boundary F1 점수 모두 기존 CLIP‑only, DINO‑only, 그리고 최신 무학습 멀티모델 방법(CASS, SegEarth‑OV 등)을 크게 앞섰다. 특히 경계가 복잡한 건물·도로 구역에서 CSCP가 기여한 성능 향상이 두드러졌다. Ablation 연구를 통해 CAF 없이 BCDR만 사용하거나, BCDR 없이 CSCP만 사용했을 때 성능이 현저히 감소함을 확인했으며, 이는 세 모듈이 상호 보완적으로 작동한다는 것을 입증한다.
전반적으로 SDCI는 (1) 의미와 구조를 동시에 강화하는 양방향 주의 맵 교환, (2) 그래프 기반 전역 확산을 통한 상호 정제, (3) 슈퍼픽셀 기반 경계 정밀화라는 세 단계의 혁신을 통해, 훈련 없이도 고해상도 원격탐사 이미지에서 정확하고 세밀한 오픈‑보캐뷸러리 세그멘테이션을 가능하게 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기