지시 기반 세그멘테이션 SAM3I

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SAM3-I는 기존 SAM3의 개념 기반 분할 능력을 유지하면서, 복잡한 자연어 지시를 직접 이해하고 해당 객체를 정확히 찾아내는 프롬프트 가능한 지시 세그멘테이션(PIS) 모델이다. 계층형 어댑터와 단계적 학습 커리큘럼을 도입해 단순·복합 지시를 모두 처리하며, 대규모 자동 생성·검증 파이프라인을 통해 풍부한 지시‑마스크 쌍을 구축한다. 실험 결과, SAM3-I는 개념 분할과 지시 기반 참조 분할 모두에서 뛰어난 성능을 보이며, 외부 멀티모달 에이전트 없이도 효율적인 추론이 가능함을 입증한다.

상세 분석

본 논문은 SAM3의 한계를 지적하고, “Promptable Instruction Segmentation”(PIS)이라는 새로운 패러다임을 제시한다. PIS는 기존의 짧은 명사구(NP) 기반 개념 분할을 넘어, 속성, 공간 관계, 기능, 행동, 상태 등 복합적인 정보를 포함한 자연어 지시를 직접 해석한다는 점에서 혁신적이다. 이를 위해 저자들은 두 단계의 경량 어댑터(Instruction‑aware Cascaded Adapter)를 설계하였다. 첫 번째 S‑Adapter는 속성·위치·관계와 같은 단순 지시를 학습하고, 두 번째 C‑Adapter는 명시적 NP가 없는 복합 지시를 처리하도록 S‑Adapter 위에 계층적으로 쌓였다. 각 어댑터는 다운‑프로젝션·ReLU·업‑프로젝션 구조와 멀티헤드 셀프 어텐션을 포함해 텍스트 인코더에 삽입되며, 시각‑언어 표현과의 정렬을 강화한다.

학습 과정은 세 단계 커리큘럼으로 구성된다. 1단계에서는 SAM3 백본을 고정하고 S‑Adapter만을 단순 지시 데이터에 대해 학습시켜 개념‑속성 정합성을 확보한다. 2단계에서는 C‑Adapter를 추가 학습시켜 복합 지시의 추론 능력을 키운다. 3단계에서는 두 어댑터를 동시에 미세조정하면서 마스크 분포 정렬 손실(L_align)과 불확실성 기반 하드‑리전 손실(L_hard)을 도입한다. L_align은 KL 발산을 이용해 simple‑branch와 complex‑branch의 마스크 확률 분포를 일치시키고, L_hard은 두 브랜치 간 차이를 불확실성 맵으로 가중해 어려운 영역에 집중하도록 설계되었다. 이러한 손실은 기존 SAM3의 세그멘테이션 손실(L_seg)과 합산되어 최종 목표 L_train을 구성한다.

데이터 측면에서는 기존 오픈‑보카뷸러리 세그멘테이션 데이터셋을 활용해 자동으로 지시‑마스크 쌍을 생성한다. 먼저 대규모 멀티모달 LLM을 이용해 각 객체에 대해 긍정·부정 지시를 다중 형식(서술형·질문형)으로 생성하고, 두 번째 LLM이 품질을 검수한다. 최종적으로 인간 검수·수정을 거쳐 높은 신뢰도의 데이터베이스를 구축한다. 이 파이프라인은 개념, 단순, 복합 세 단계의 지시 taxonomy를 따르며, 각 단계별로 4개의 긍정·4개의 부정 지시를 제공해 모델이 다양한 언어적 변형에 강인하도록 만든다.

실험에서는 RefCOCO, RefCOCO+, RefCOCOg와 같은 전통적인 레퍼링 세그멘테이션 벤치마크와, 복합 지시를 포함한 새로운 평가 셋을 사용해 성능을 검증한다. SAM3‑I는 기존 SAM3에 비해 평균 IoU와 정확도에서 5~12% 향상을 보였으며, 외부 에이전트 없이도 단일 패스 추론으로 지시를 처리해 연산 비용을 크게 절감했다. 또한, 도메인‑특정 파인‑튜닝 워크플로우를 제공해 의료·산업 현장 등 특수 환경에서도 손쉽게 적용 가능함을 시연한다.

핵심 인사이트는 (1) 텍스트 인코더에 경량 어댑터를 계층적으로 삽입함으로써 복합 언어 이해와 시각 정합을 동시에 달성할 수 있다는 점, (2) 단계적 커리큘럼과 정렬 손실이 서로 다른 지시 수준 간의 표현 격차를 효과적으로 메우며 학습 안정성을 보장한다는 점, (3) 자동‑검수‑인간 보완형 데이터 파이프라인이 대규모 고품질 지시‑마스크 쌍을 저비용으로 확보한다는 점이다. 이러한 설계는 향후 SAM 패밀리의 확장성을 크게 높이며, 로봇 제어, 증강현실, 자율주행 등 실제 응용 분야에서 자연어 기반 시각 인식을 구현하는 데 중요한 기반이 될 것으로 기대된다.

지시 기반 세그멘테이션 SAM3I

초록

상세 분석

댓글 및 학술 토론

의견 남기기