가시성 인식 언어 집합(VALA)으로 3D 가우시안 스플래팅의 오픈보카뷸러리 세그멘테이션 혁신
초록
본 논문은 3D Gaussian Splatting(3DGS) 기반 장면에 2D 비전‑언어 모델의 임베딩을 전달할 때 발생하는 ‘배경 가우시안 과다 할당’과 ‘다중 뷰 간 언어 특징 불일치’ 문제를 해결한다. 가시성(visibility) 가중치를 이용해 실제 픽셀에 기여하는 가우시안만을 선택하고, 스트리밍 가중치 코사인 중앙값을 통해 뷰마다 잡히는 노이즈를 억제한다. 제안된 VALA는 메모리·연산 효율성을 유지하면서 기존 방법보다 높은 오픈보카뷸러리 로컬라이제이션·세그멘테이션 성능을 달성한다.
상세 분석
VALA는 3D Gaussian Splatting(3DGS)이라는 고효율 신경 장면 표현 위에 언어 특징을 직접 주입하는 방식을 채택한다. 기존 연구들은 카메라 레이(ray)를 따라 만나는 모든 가우시안에 동일한 2D CLIP·SAM 특징을 할당했으며, 이는 (1) 가시성이 거의 없는 배경 가우시안까지 전경 특징을 받아들여 의미적 오염을 일으키고, (2) 서로 다른 뷰에서 추출된 특징이 서로 상이해 ‘semantic drift’를 초래한다는 근본적인 한계를 가지고 있었다.
VALA는 두 단계의 가시성 기반 게이팅(VAG) 메커니즘을 도입한다. 첫 번째 단계에서는 레이상의 가우시안 기여도 w_i(r)=α_i(r)·T_i(r)를 계산하고, 전체 가시성 질량 S_tot의 일정 비율(τ_view, 0.5~0.75)만을 차지하는 최소 집합을 선택한다. 여기서 α_i는 가우시안의 투명도, T_i는 앞쪽 가우시안에 의해 차단된 빛의 전이(transmittance)를 의미한다. 두 번째 단계에서는 절대적인 기여도 하한(τ_abs)을 적용하고, 상위 q-분위수(τ_sq) 이상의 가우시안을 추가로 보존함으로써 수치적 노이즈와 극단적 소외를 방지한다. 이렇게 선택된 가시 가우시안 집합에만 2D 언어 임베딩을 전파함으로써, 실제 화면에 기여하지 않는 배경 가우시안은 의미적 감독을 받지 않게 된다.
다중 뷰 특징 통합에서는 기존의 평균이나 가중 평균 대신, 코사인 거리 공간에서의 가중치 코사인 중앙값(weighted cosine median)을 스트리밍 방식으로 근사한다. 이 최적화는 비선형이지만, 단일 뷰당 특징 f_s를 단위 구면 위에 투사하고, 가중치 w_s를 이용해 점진적으로 중앙값을 업데이트한다. 결과적으로 뷰마다 발생하는 잡음이나 외란이 평균화되지 않고, 중앙값을 기준으로 억제돼 보다 일관된 3D 언어 임베딩을 얻는다.
실험에서는 LeRF‑OVS와 ScanNet‑v2 두 벤치마크에서 mIoU, mAP 등 다양한 지표를 기존 최첨단 방법(Occam’s LGS, Dr.Splat, LangSplat 등)과 비교했다. VALA는 동일한 하드웨어 환경에서 3DGS 기반의 빠른 렌더링 속도(≈1분 내 최적화)와 메모리 사용량을 유지하면서, 평균 3~5%p 이상의 mIoU 향상을 기록했다. 특히 복잡한 실내 장면에서 배경‑전경 구분이 명확히 개선돼, “테이블 위의 컵”과 같은 미세한 객체도 정확히 탐지되었다.
한계점으로는 가시성 임계값 τ_view와 τ_abs를 데이터셋마다 경험적으로 설정해야 한다는 점, 그리고 코사인 중앙값 스트리밍이 완전한 최적화가 아니므로 극단적인 뷰 노이즈가 존재할 경우 여전히 약간의 drift가 남을 수 있다는 점을 들 수 있다. 향후 연구에서는 자동 하이퍼파라미터 튜닝과 더 정교한 비선형 중앙값 근사 기법을 도입해 이러한 약점을 보완할 여지가 있다.
전반적으로 VALA는 3DGS와 오픈보카뷸러리 언어 모델을 결합하는 데 있어, 가시성 정보를 활용한 선택적 특징 전파와 뷰 일관성을 보장하는 중앙값 집계라는 두 축을 통해 기존 방법의 근본적인 약점을 효과적으로 해소한다. 이는 로봇 내비게이션, 증강현실, 자율주행 등 실시간 3D 인식이 요구되는 응용 분야에 즉시 적용 가능하며, 향후 더 복잡한 장면과 대규모 언어 사전에도 확장될 잠재력을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기