불확실성 인식 4D 가우시안 스플래팅으로 단일 카메라 가림 인간 렌더링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 단일 카메라 영상에서 가려진 인간을 고품질로 복원하기 위해, 이질적 관측 잡음을 고려한 MAP 추정 프레임워크를 제안한다. 확률적 변형 네트워크가 각 가우시안 프리미티브마다 알레아틱 불확실성을 예측하고, 이 값을 픽셀 정렬 불확실성 맵으로 렌더링하는 이중 래스터화 파이프라인에 통합한다. 불확실성 맵은 손실 함수에서 가중치 역할을 하여 신뢰도가 낮은 영역의 그래디언트를 억제하고, 신뢰도 기반 정규화가 시공간 일관성을 유지하도록 돕는다. ZJU‑MoCap와 OcMotion 데이터셋에서 기존 방법들을 크게 앞서는 렌더링 품질과 견고함을 입증한다.

상세 분석

U‑4DGS는 기존 3D 가우시안 스플래팅(3DGS) 기반 동적 인간 재구성 방식이 가림 현상에 취약하다는 문제를 근본적으로 재정의한다. 저자는 관측 잡음이 픽셀마다 서로 다른 이질적(heteroscedastic) 특성을 가진다고 가정하고, 이를 라플라시안 분포의 스케일 파라미터로 모델링한다. 이 스케일은 알레아틱 불확실성으로 해석되며, MAP 목표함수에서 역가중치 역할을 수행한다. 즉, 불확실성이 높은 영역은 손실에 크게 기여하지 않아 모델이 오클루더의 텍스처를 인간 표면에 잘못 학습하는 것을 방지한다.

핵심 모듈은 확률적 변형 네트워크(Probabilistic Deformation Network)이다. 입력으로 시간 임베딩 γ(t)와 SMPL 포즈 θₜ를 받아, 각 가우시안에 대해 위치·스케일·회전 보정(Δr, Δµ, Δs)과 함께 알레아틱 불확실성 σᵢ를 출력한다. σᵢ는 프리미티브 수준에서 직접 학습되므로, 이후 2D 이미지 공간으로 투사될 때 픽셀 정렬 불확실성 맵 Ũ로 집계된다.

두 번째 단계인 이중 래스터화(Double Rasterization)는 기존 3DGS의 전방 α‑블렌딩 파이프라인을 확장한다. 하나의 렌더링 경로는 색상 이미지 Ĉ를 생성하고, 다른 경로는 불확실성 맵 Ũ를 동시에 출력한다. 이때 Ũ는 밝을수록 높은 불확실성을 의미하며, 손실 함수 L_NLL = Σᵤ log(σᵤ) + |Ĉᵤ – Iᵤ|/σᵤ 에서 직접적인 가중치로 작용한다. 결과적으로 신뢰도가 낮은 픽셀은 그래디언트가 약화돼, 학습이 안정된다.

마지막으로 신뢰도 기반 정규화(Confidence‑Aware Regularizations)인 L_spa와 L_temp를 도입한다. L_spa는 공간적으로 인접한 가우시안 간 불확실성 차이를 최소화해, 신뢰도가 높은 영역의 구조적 정보를 가림된 영역으로 전파한다. L_temp는 시간 축에서 불확실성 맵의 일관성을 강제해, 급격한 변동을 억제하고 텍스처의 시간적 플리커링을 방지한다.

실험에서는 ZJU‑MoCap와 OcMotion 두 벤치마크에서 PSNR, SSIM, LPIPS 등 정량 지표와 시각적 품질 모두에서 기존 NeRF 기반 방법(OccNeRF, Wild2Avatar) 및 최신 3DGS 변형(GauHuman, SymGaussian)보다 현저히 우수함을 보였다. 특히 심한 가림 상황에서도 인체 형태와 의복 디테일을 복원하면서도 실시간(30 fps 이상) 렌더링 속도를 유지한다.

이러한 설계는 불확실성을 단순한 가중치가 아니라 최적화 흐름을 조절하는 핵심 신호로 활용함으로써, 가림 현상에 강인한 동적 인간 재구성 프레임워크를 제시한다.

불확실성 인식 4D 가우시안 스플래팅으로 단일 카메라 가림 인간 렌더링

초록

상세 분석

댓글 및 학술 토론

의견 남기기