언어가 삽입된 표면 가우시안으로 3D 장면 이해 강화
초록
LangSurf는 3D 가우시안 스플래팅에 언어 정보를 직접 표면에 정렬시켜, 텍스트 기반 2D·3D 분할 및 객체 편집을 고정밀로 수행한다. 계층적 컨텍스트 인식 모듈과 다중 단계의 공동 학습을 통해 기존 LangSplat 대비 의미 정합성과 기하 정밀도가 크게 향상된다.
상세 분석
본 논문은 최근 급부상하고 있는 3D Gaussian Splatting(3DGS)을 기반으로, 언어 임베딩을 객체 표면에 정확히 매핑하는 새로운 프레임워크 LangSurf를 제안한다. 기존 연구(LangSplat, LERF 등)는 주로 새로운 뷰에서 2D 특징 맵을 렌더링하고, 이를 CLIP‑SAM 파이프라인으로 처리해 3D 언어 필드를 생성한다. 그러나 이러한 접근은 (1) 지역 마스크에 국한된 특징 추출로 전역 컨텍스트가 부족하고, (2) 언어 특징이 실제 물체 표면과 정렬되지 않아 3D 공간에서 의미적 일관성이 결여되는 문제를 안고 있다.
LangSurf는 두 가지 핵심 기여로 이를 극복한다. 첫째, Hierarchical‑Context Awareness Module을 도입해 전체 이미지에 대한 픽셀‑레벨 언어‑시각 특징을 추출한 뒤, SAM이 제공하는 다중 규모(소·중·대) 마스크에 대해 계층적 마스크 풀링을 수행한다. 이 과정에서 각 마스크는 전역 컨텍스트를 포함한 풍부한 의미 정보를 얻게 되며, 특히 텍스처가 약하거나 복잡한 구조를 가진 객체(벽, 바닥, 복합 형태 물체)에서 큰 이점을 제공한다. 둘째, Joint Training Strategy를 통해 언어 가우시안을 표면에 ‘평탄화’한다. 구체적으로 (a) 다중 뷰 정상 벡터 제약을 이용한 기하학적 정규화, (b) CLIP‑derived 언어 특징과 렌더링된 언어 특징 사이의 L2 손실, (c) 동일 마스크 내부의 특징을 군집화하는 Semantic Grouping 손실, (d) KL‑divergence 기반의 Spatial‑Aware Semantic Supervision을 결합해 언어 가우시안이 표면에 정확히 부착되도록 한다.
또한, 인스턴스‑aware 학습 단계에서 각 가우시안에 인스턴스 특징을 부여하고, 객체 간 의미적 거리를 최대화함으로써 동일 객체 내에서는 일관된 언어 표현을, 서로 다른 객체 간에는 명확한 구분을 만든다. 이러한 설계는 3D 쿼리, 분할, 객체 제거·편집 등 downstream 작업에서 기존 방법 대비 10~20% 이상의 mIoU·mAcc 향상을 실험적으로 입증한다.
기술적인 관점에서 주목할 점은 (1) 언어 특징을 직접 3D 가우시안에 삽입함으로써 렌더링 파이프라인과 의미 파이프라인을 완전 통합한 점, (2) 다중 단계(기본 RGB‑Only → Geometry+Semantic → Instance‑Aware) 학습 흐름을 통해 점진적으로 의미와 기하를 정교화한다는 점, (3) SAM 마스크를 활용한 계층적 풀링이 전역‑지역 정보를 동시에 제공한다는 점이다. 이러한 설계는 3DGS의 고속 렌더링 장점을 유지하면서도, 언어‑기반 3D 인식의 정확성을 크게 끌어올린다.
댓글 및 학술 토론
Loading comments...
의견 남기기