오픈월드SAM: 언어 프롬프트로 구현하는 범용 이미지 세그멘테이션

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

OpenWorldSAM은 SAM2에 경량 비전‑언어 어댑터를 결합해 텍스트 프롬프트만으로도 객체를 정확히 마스크화한다. 사전 학습된 SAM2와 BEiT‑3을 고정하고 4.5 M 파라미터만 학습함으로써 효율성을 유지하면서, 위치 기반 tie‑breaker와 교차‑어텐션 기반 소프트 프롬프트를 통해 다중 인스턴스 구분과 제로샷 일반화를 달성한다. COCO‑Stuff, ADE20K, RefCOCOg 등 6개 벤치마크에서 최첨단 성능을 기록한다.

상세 분석

본 논문은 기존 SAM2가 시각적 프롬프트(점, 박스)에는 뛰어나지만 텍스트 기반 의미 이해가 결여된 점을 보완한다. 핵심 아이디어는 두 가지이다. 첫째, 사전 학습된 BEiT‑3(경량 비전‑언어 모델)를 이용해 이미지와 텍스트를 조기에 융합하고, 그 출력의 CLS 토큰을 1024‑dimensional에서 256‑dimensional으로 투사하는 MLP를 삽입한다. 둘째, “positional tie‑breaker”라는 학습 가능한 위치 벡터 K개를 텍스트 임베딩에 더해 K개의 서로 다른 쿼리를 생성한다. 이 과정은 동일한 텍스트(예: “zebra”)가 여러 객체에 매핑될 때, 각 쿼리가 서로 다른 공간적 영역을 목표로 하게 만든다.

쿼리와 SAM2 이미지 피처 사이의 정교한 정렬은 3‑layer Transformer 블록을 통해 이루어진다. 여기서는 self‑attention으로 쿼리 간 다양성을 유지하고, cross‑attention으로 고해상도(64×64) 이미지 피처와 상호작용한다. 이 “soft prompting”은 기존 SAM2가 점이나 박스 프롬프트를 받는 방식을 그대로 활용하면서, 텍스트 기반 쿼리를 동일한 포맷으로 변환한다.

학습 단계에서는 SAM2와 BEiT‑3을 완전히 동결하고, MLP, tie‑breaker, soft‑prompt Transformer만을 최적화한다. COCO‑Stuff에서 텍스트 라벨에 해당하는 마스크와 Hungarian 매칭을 수행해 1‑to‑1 매핑을 만든 뒤, focal loss와 mask‑IoU 손실을 결합한다. 이때 인스턴스 수에 대한 명시적 레이블이 없어도, tie‑breaker가 자동으로 서로 다른 영역을 담당하도록 유도된다.

추론 시 K개의 마스크를 모두 출력하고, confidence‑score 기반 필터링과 NMS를 적용해 semantic, instance, panoptic 세 가지 태스크에 맞게 후처리한다. 선택적으로 두 단계 추론을 수행해 첫 단계 마스크를 시각적 프롬프트로 재사용함으로써 경계 정밀도를 약간 향상시킨다.

실험 결과는 두드러진다. ADE20K에서 60.4 mIoU, RefCOCOg에서 74.0 cIoU를 달성했으며, 이는 기존 경량 모델(EVF‑SAM 등)보다 크게 앞선다. 특히 4.5 M 파라미터만 추가 학습했음에도 불구하고, 6개 데이터셋에서 모두 SOTA를 기록한다는 점은 효율성과 일반화 능력 모두를 입증한다.

한계점으로는 tie‑breaker 수 K를 고정해야 한다는 점과, 매우 복잡한 장면에서 인스턴스 수가 K를 초과할 경우 추가적인 post‑processing이 필요할 수 있다는 점을 들 수 있다. 또한, BEiT‑3 자체가 대규모 이미지‑텍스트 데이터에 사전 학습된 모델이므로, 완전한 “zero‑resource” 상황에서는 성능 저하가 예상된다.

전반적으로 OpenWorldSAM은 SAM2의 강력한 마스크 생성 능력에 경량 비전‑언어 어댑터를 결합함으로써, 텍스트 프롬프트 기반의 범용 세그멘테이션을 실현한다. 이는 인터랙티브 어플리케이션, 로봇 비전, AR/VR 등 다양한 실시간 시스템에 바로 적용 가능하도록 설계된 점이 큰 장점이다.

오픈월드SAM: 언어 프롬프트로 구현하는 범용 이미지 세그멘테이션

초록

상세 분석

댓글 및 학술 토론

의견 남기기