클러터된 장면을 위한 희소 뷰 3D 인스턴스 분할 및 언어 기반 그리핑
초록
Clutt3R‑Seg은 희소한 RGB‑D 뷰만으로도 복잡한 잡동사니 환경에서 정확한 3D 인스턴스 분할을 수행하고, 열린 어휘 임베딩을 활용해 자연어 명령을 직접 매핑한다. 계층적 마스크 트리를 이용한 교차‑뷰 그룹화와 조건부 대체 과정을 통해 과·과소 분할을 억제하고, 단일 사후 이미지만으로 장면 변화를 효율적으로 업데이트한다. 실험 결과, 무거운 잡동사니 시퀀스에서 AP@25 61.66을 달성하며 기존 최첨단 방법보다 2배 이상 우수한 성능을 보인다.
상세 분석
Clutt3R‑Seg은 “희소‑뷰 3D 인스턴스 분할 + 언어‑그라운딩”이라는 두 가지 핵심 문제를 동시에 해결한다는 점에서 혁신적이다. 첫 번째 핵심은 계층적 인스턴스 트리(Hierarchical Instance Tree) 를 도입해 Grounded SAM이 생성한 노이즈가 많은 2D 마스크들을 구조화한다는 점이다. 트리는 ‘object‑cluster → object → sub‑object’ 라는 세 단계의 마스크 레벨을 기반으로 하며, 각 루트‑투‑리프 경로에 정확한(Proper) 마스크가 최대 하나만 존재한다는 제약을 둔다. 이 제약은 과‑분할(큰 마스크가 작은 마스크을 포함)과 과‑소분할(작은 마스크가 큰 마스크 안에 존재) 오류를 명확히 구분하게 해준다.
두 번째 핵심은 교차‑뷰 마스크 그룹화이다. 각 뷰에서 만든 리프 노드들을 전역 그래프 G에 모아, 두 단계의 유사도 기반 병합을 수행한다. 첫 단계는 공간 유사도(S_spatial) 로, 슈퍼‑볼록(super‑voxel) 점유율을 가중치로 한 Jaccard 지수를 사용해 3D 겹침 정도를 정량화한다. 이는 희소 뷰에서도 물리적 겹침을 기반으로 마스크를 연결해 주어, 색상·조명 변화에 강인하다. 두 번째 단계는 시맨틱 유사도(S_semantic) 로, Duoduo‑CLIP 임베딩 간 코사인 유사도를 이용한다. CLIP은 텍스트‑이미지 공동 임베딩을 제공하므로, 서로 다른 뷰에서 동일 객체가 다른 색·형태를 보여도 높은 시맨틱 점수를 얻는다.
그 후 조건부 대체(Conditional Substitution) 를 적용한다. 그룹화 과정에서 남은 잔여 노드(Residual Node)는 부모 노드와 교체함으로써 과‑분할된 마스크를 올바른 크기의 마스크로 교정한다. 이 단계는 트리 구조가 제공하는 “하위‑상위 관계” 정보를 활용해, 잘못된 작은 마스크를 더 큰 올바른 마스크로 대체한다. 결과적으로 3D 포인트 클라우드에 투영된 마스크들은 뷰‑일관성(view‑consistent) 을 확보하고, 과·과소 분할이 크게 감소한다.
세 번째 기여는 언어‑그라운딩이다. 각 3D 인스턴스에 Duoduo‑CLIP으로부터 얻은 열린 어휘 임베딩을 부착함으로써, “청소용 세제”, “테니스볼” 같은 자유 텍스트 명령을 직접 매칭한다. 기존 방법은 사전 정의된 라벨 집합에 의존했지만, Clutt3R‑Seg은 제로‑샷(open‑vocab) 방식으로 새로운 객체도 즉시 인식한다.
마지막으로 장면 업데이트 메커니즘을 제시한다. 다단계 그리핑 과정에서 물체를 집거나 이동시킨 후, 전체 씬을 다시 스캔할 필요 없이 단일 사후 이미지만을 이용해 기존 인스턴스와 새로운 마스크를 매칭한다. 이는 잔여 인스턴스의 3D 포즈를 유지하면서, 변위된 물체를 재식별하고, 필요 시 새로운 인스턴스를 추가한다. 이렇게 하면 연속적인 작업에서도 실시간에 가까운 속도로 씬을 갱신할 수 있다.
실험에서는 합성 YCB‑Clutter 데이터와 실제 로봇 실험 모두에서 뛰어난 성능을 입증한다. 특히 4개의 입력 뷰만으로도 MaskClustering(8뷰)보다 2배 이상 높은 AP@25를 기록했으며, 무거운 잡동사니 시퀀스에서 61.66%라는 높은 정확도를 달성했다. 이는 기존 방법이 다중 뷰와 고품질 마스크에 크게 의존했음에도 불구하고, Clutt3R‑Seg이 노이즈가 많은 마스크와 희소 뷰에서도 견고하게 동작한다는 증거다.
요약하면, Clutt3R‑Seg은 (1) 마스크 트리를 통한 구조적 오류 억제, (2) 공간·시맨틱 이중 유사도 기반 교차‑뷰 그룹화, (3) 조건부 대체를 통한 마스크 정제, (4) 열린 어휘 임베딩을 활용한 제로‑샷 언어‑그라운딩, (5) 단일 사후 이미지 기반 효율적 씬 업데이트라는 5가지 핵심 설계가 결합된 시스템이다. 이 설계는 복잡하고 잡동사니가 많은 실제 환경에서 로봇이 인간과 자연스럽게 대화하며 물체를 조작할 수 있는 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기