크로스도메인 소수샷 세그멘테이션을 위한 조건부 포인트 희소화 기법
초록
본 논문은 SAM 기반 소수샷 세그멘테이션에서 도메인 간 격차가 클 때 발생하는 밀집 프롬프트 포인트의 성능 저하 문제를 지적하고, 레퍼런스 마스크를 활용해 적절한 포인트 밀도를 자동으로 추정·희소화하는 훈련‑프리 방법인 Conditional Point Sparsification(CPS)을 제안한다. CPS는 dense point matching, 경계점 제거, 조건부 희소화, 사후 마스크 정제의 네 단계로 구성되며, 의료·위성 이미지 등 크로스도메인 벤치마크에서 기존 SAM 기반 방법들을 크게 능가한다.
상세 분석
SAM은 이미지 인코더‑프롬프트 인코더‑마스크 디코더로 이루어진 대규모 프롬프트 가능한 세그멘테이션 모델이며, 기존 연구들은 레퍼런스 이미지와 타깃 이미지 간의 dense point matching을 통해 얻은 포인트들을 SAM에 프롬프트로 전달한다. 이러한 접근은 COCO‑20i와 같이 도메인이 일치하는 경우에는 높은 정확도를 보이지만, 의료 영상(ISIC)이나 위성 영상(DeepGlobe)처럼 시각적 특성이 크게 다른 데이터셋에서는 성능이 급격히 떨어진다. 논문은 두 가지 현상을 관찰한다. 첫째, SAM이 학습한 “포인트‑이미지 상호작용”이 도메인 이동에 취약해, 동일한 포인트라도 서로 다른 도메인에서는 의미가 달라진다. 둘째, 크로스도메인 객체는 색·텍스처가 비교적 균일하고 형태가 단순한 경우가 많아, 오히려 과도한 포인트가 잡음으로 작용한다. 이를 정량적으로 확인하기 위해 SAM 비전 인코더의 패치 특징을 t‑SNE로 시각화하고, intra‑object variance를 측정하였다. 의료·위성 데이터는 COCO 대비 variance가 현저히 낮아, “적은 수의 핵심 포인트”가 충분히 객체를 정의한다는 결론에 도달한다.
CPS는 이러한 통찰을 기반으로 설계되었다. 핵심 아이디어는 레퍼런스 이미지의 ground‑truth 마스크를 이용해 “적정 포인트 밀도”를 추정하고, 이를 타깃 이미지에 매칭된 dense 포인트 집합에 적용해 희소화하는 것이다. 구체적인 파이프라인은 다음과 같다. (1) DINOv2 기반의 Positive‑Negative Alignment(PNA) 모듈을 사용해 레퍼런스와 타깃 이미지 간의 dense correspondence를 구한다. 이 단계는 기존 방법과 동일하지만, 매칭된 포인트를 SAM 입력 좌표계로 변환할 때 발생할 수 있는 해상도 차이를 보정한다. (2) 변환된 포인트 집합에 대해 convex hull을 계산하고, hull의 경계에 위치한 포인트를 제거한다. 경계점은 매칭 오류와 배경 침범 가능성이 높아, 사전 pruning을 통해 잡음을 감소시킨다. (3) 레퍼런스 마스크에서 객체 면적, 형태 복잡도, 그리고 mask‑based point density(예: 면적당 포인트 수)를 추출한다. 이 정보를 “조건부 밀도 신호”로 활용해, 타깃 이미지의 포인트 집합을 목표 밀도에 맞게 subsampling한다. 여기서는 단순 random sampling이 아니라, 객체 중심부와 경계부를 균형 있게 유지하도록 거리‑가중 샘플링을 적용한다. (4) 희소화된 포인트를 SAM에 프롬프트로 제공해 초기 마스크 ˆMₜ를 얻고, 이후 마스크‑기반 post‑hoc refinement 모듈을 통해 작은 구멍을 메우고 경계를 다듬어 최종 마스크 ˜Mₜ를 생성한다. 이 단계는 기존 SAM 디코더 출력에 작은 CRF 혹은 morphological 연산을 적용한 것과 유사하지만, CPS에서는 레퍼런스 마스크와의 IoU를 기준으로 반복적 개선을 수행한다.
실험에서는 ISIC(피부 병변), DeepGlobe(위성 이미지), 그리고 COCO‑20i(인‑도메인) 네 개의 데이터셋에 대해 1‑shot·5‑shot 설정을 평가하였다. 평가 지표는 mean Intersection‑over‑Union(mIoU)이며, CPS는 Matcher(기존 dense‑point 기반) 대비 평균 4.2%~7.8%의 절대 향상을 기록한다. 특히 의료·위성 데이터에서는 dense 포인트가 오히려 성능을 저하시켰던 반면, CPS는 적절히 희소화된 포인트 덕분에 기존 방법을 크게 앞선다. 또한, “고정된 포인트 밀도”를 사용하는 휴리스틱 방법과 비교했을 때, CPS는 레퍼런스 마스크 기반 동적 밀도 추정 덕분에 모든 도메인에서 일관된 우수성을 보였다. 중요한 점은 CPS가 전혀 추가 학습 없이 inference 단계만으로 구현 가능하다는 점이다. 따라서 기존 SAM을 그대로 활용하면서도 크로스도메인 소수샷 세그멘테이션에 필요한 적응성을 손쉽게 부여할 수 있다.
이 논문의 기여는 크게 세 가지이다. 첫째, 크로스도메인 상황에서 SAM의 포인트‑이미지 상호작용이 깨지는 원인을 정량적으로 분석하고, 포인트 밀도가 핵심 변수임을 밝혀냈다. 둘째, 레퍼런스 마스크를 이용해 조건부로 포인트 밀도를 추정·조절하는 CPS라는 훈련‑프리 프레임워크를 제안했다. 셋째, 다양한 크로스도메인 벤치마크에서 기존 SAM 기반 방법들을 전반적으로 능가함으로써, 훈련‑프리 접근법의 실용성을 입증했다. 향후 연구에서는 CPS를 다른 비전 파운데이션 모델(예: CLIPSeg)이나 멀티‑모달 프롬프트와 결합해 더욱 복잡한 의료·위성 시나리오에 적용하는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기