분할과 스플래팅 제로샷 파노프틱 세그멘테이션
초록
본 논문은 3D 가우시안 스플래팅(3DGS)을 기반으로 장면을 객체 단위로 분할하고, 각 객체를 독립적으로 재구성한 뒤 의미적 설명자를 삽입하여 제로샷 파노프틱 세그멘테이션을 수행한다. 뎁스와 SfM을 이용해 2D 마스크를 다중 뷰에 걸쳐 일관되게 전파하고, 객체별 3DGS 재구성을 통해 경계가 선명한 파노프틱 결과를 얻는다. ScanNetv2에서 최첨단 성능을 달성한다.
상세 분석
Split&Splat은 기존 3D 가우시안 스플래팅이 제공하는 고품질 렌더링 능력에 의미적 구조를 직접 부여한다는 점에서 혁신적이다. 먼저 다중 뷰 이미지에서 SAM2와 같은 최신 2D 인스턴스 세그멘터를 이용해 초기 마스크를 생성한다. 여기서 핵심은 깊이 지도와 SfM으로 얻은 카메라 포즈를 활용해 마스크를 3D 포인트 클라우드에 투사하고, 각 뷰에서 깊이 일치성을 검사해 시점 간 일관성을 강제한다. 이 과정에서 DBSCAN 기반의 클러스터링으로 잡음 포인트를 제거하고, 다중 뷰에서 얻은 라벨 점수들을 가중 평균해 최종 3D 라벨을 결정한다. 이렇게 얻어진 전역 라벨 포인트 클라우드는 뷰마다 재투사되어 일관된 2D 마스크 집합을 만든다.
다음 단계인 Splat에서는 라벨별로 마스크된 이미지 집합을 추출해 각각 독립적인 3DGS 재구성을 수행한다. 객체별 재구성은 기존 3DGS 파이프라인과 동일하게 가우시안 파라미터(위치, 색상, 크기, 회전)를 최적화하지만, 객체 경계가 명확히 구분되므로 가우시안 간 겹침이 최소화된다. 재구성 후에는 각 뷰에서 가시 가우시안을 렌더링해 완전 불투명 마스크를 만든 뒤, K‑means++와 유사한 2D 샘플링으로 균일한 포인트를 추출한다. 이 포인트들을 다시 세그멘터에 입력해 refined mask를 얻고, 초기 마스크와 IoU를 비교해 최종 마스크를 선택한다. 이 절차는 특히 작은 물체나 부분 가려진 객체에 대해 정확도를 크게 향상시킨다.
마지막으로 객체별 가우시안 집합을 3D 바운딩 박스로 정렬하고, 겹침 정도를 기반으로 충돌 행렬을 만든다. 충돌이 없는 경우 단순히 합치고, 겹치는 경우 경계 부근의 가우시안을 재조정해 부드러운 전이와 경계 보존을 달성한다. 의미적 설명자는 각 객체에 대해 시각적 디스크립터(예: CLIP 기반 임베딩)를 추출해 저장함으로써, 재구성된 장면에서 객체 검색, 텍스트 기반 편집, 그리고 파노프틱 세그멘테이션 같은 다운스트림 작업을 바로 수행할 수 있다.
핵심 기여는 (1) 2D 마스크를 깊이와 포인트 클라우드 기반으로 다중 뷰에 걸쳐 정밀하게 정합시켜 객체 일관성을 확보한 점, (2) 객체별 독립 재구성을 통해 가우시안 간 경계 흐림을 방지하고 메모리 사용을 최소화한 점, (3) 객체 수준 디스크립터를 삽입해 3DGS를 의미적 장면 이해 플랫폼으로 확장한 점이다. 실험에서는 ScanNetv2 파노프틱 세그멘테이션에서 mIoU 71.3%를 기록, 기존 3DGS 기반 방법들을 크게 앞섰다. 또한, 제로샷 설정에서도 텍스트 프롬프트만으로 객체를 선택·편집할 수 있는 능력을 보여, 실시간 3D 편집 파이프라인으로의 적용 가능성을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기