3D 장면 편집을 위한 가우시안 스플래팅 기반 실시간 편집기

3D 장면 편집을 위한 가우시안 스플래팅 기반 실시간 편집기
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

3DSceneEditor는 Gaussian Splatting을 이용해 3D 씬을 직접 조작하는 새로운 편집 프레임워크이다. 사전 학습된 3D 인스턴스 분할 모델과 CLIP 기반 제로샷 그라운딩을 결합해 텍스트 프롬프트만으로 객체 추가·이동·색상 변경·제거·교체 등을 실시간(수초)으로 수행한다. 2D‑3D 투사 과정을 없애고 전 과정을 3D 공간에서 처리함으로써 기존 방법보다 높은 정밀도와 효율성을 보인다.

상세 분석

본 논문은 기존 3D 편집 방법이 갖는 두 가지 근본적인 한계를 극복한다. 첫째, NeRF 기반 접근법은 MLP 형태의 암시적 표현을 사용해 개별 요소를 직접 수정하기 어렵고, 학습·렌더링에 높은 연산 비용이 소요된다. 둘째, 최근 Gaussian Splatting을 활용한 편집기들은 2D 디퓨전 모델이나 SAM·Grounding‑DINO와 같은 2D 마스크를 3D로 투사하는 복잡한 파이프라인에 의존한다. 이러한 2D‑3D 연계 과정은 프레임마다 마스크를 생성하고 정합시키는 비용이 크며, 텍스트 기반 제어가 제한적이다.

3DSceneEditor는 “3D‑only” 파이프라인을 제시한다. 먼저 Mask3D에서 사전 학습된 인스턴스 분할 모델을 이용해 각 Gaussian에 의미 라벨을 할당한다. 이후 제로샷 그라운딩 모듈은 프롬프트에서 키워드를 추출하고, 뷰‑디펜던트 관계 해석을 위해 2D egocentric view를 가상 카메라로 설정해 3D 객체 간 공간 관계를 2D 평면에 투사한다. CLIP을 활용한 이미지‑텍스트 정렬 단계에서는 프롬프트와 후보 객체 이미지 토큰 간 코사인 유사도를 계산해 최적의 타깃 객체를 선택하고, 그 3D 바운딩 박스를 ROI로 정의한다.

편집 단계에서는 ROI 내부의 Gaussian에 대해 다섯 가지 조작을 수행한다. 객체 제거는 해당 Gaussian을 삭제하고, 색상 변경은 색상 특성값을 매핑 테이블을 통해 교체한다. 객체 추가·교체는 Gaussian‑기반 생성 모델을 이용해 새로운 객체를 생성하고, 스케일 및 위치 정렬을 바운딩 박스 중심축 맞춤과 기하학적 스티칭으로 수행한다. 객체 이동은 좌표를 작은 범위 내에서 변형해 레이 트레이싱 시 발생할 수 있는 잡음을 최소화한다. 또한, 분할 오류를 보정하기 위해 K‑NN 클러스터링을 적용해 라벨을 재정비하고, 배경 “블랙홀”을 인페인팅한다.

실험에서는 복잡한 실내 씬(ScanNet 등)에서 기존 SOTA인 Instruct‑GS2GS, FlashSplat, GaussianEditor와 비교해 편집 정확도, 처리 시간, GPU 메모리 사용량 모두 우수함을 입증한다. 특히 텍스트 프롬프트 하나만으로 전체 파이프라인이 수십 초 내에 완료되는 점은 실시간 인터랙티브 편집에 큰 진전을 의미한다. 한계점으로는 대형 객체 이동 시 Gaussian 수가 급증해 렌더링 품질이 저하될 수 있으며, 현재는 작은 객체에 한정된 이동 범위만 지원한다는 점이다. 향후 연구에서는 대규모 이동 및 물리적 충돌 방지를 위한 전역 최적화와, 보다 정교한 3D 생성 모델 통합이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기