VR에서 실시간 3D 가우시안 아바타 구현
초록
VRGaussianAvatar는 HMD의 머리와 손 트래킹만으로 사용자의 전체 몸을 3D 가우시안 스플래팅(3DGS) 아바타로 재구성하고, 양안 배치를 이용해 스테레오 렌더링을 한 번의 GPU 배치로 처리함으로써 고해상도 VR에서도 실시간 성능을 유지한다. 사용자 연구에서 기존 메쉬 기반 아바타보다 외관 유사도·자아 구현·현실감이 크게 향상되었다.
상세 분석
본 논문은 기존 메쉬 기반 아바타가 템플릿 의존성, 복잡한 캡처 파이프라인, 낮은 외관 사실성 등의 한계를 가지고 있다는 점을 출발점으로 삼는다. 최근 신경 렌더링 기술인 Neural Radiance Fields(Nerf)와 3D Gaussian Splatting(3DGS)이 고품질·고속 렌더링을 동시에 제공한다는 사실을 활용해, 단일 이미지로부터 전체 몸을 재구성하는 파이프라인을 설계하였다. 핵심 기여는 크게 세 가지이다. 첫째, VR 프론트엔드와 GA 백엔드로 구성된 병렬 스트리밍 아키텍처이다. 프론트엔드는 Unity 기반으로 HMD의 6DoF 머리 포즈와 양손 트래킹을 입력받아 오프‑더‑쉘프 IK 솔버(Final IK)를 이용해 SMPL‑X 호환 전체 몸 포즈 θ를 추정한다. 이때 머리 포즈를 루트 제약으로 사용하고, 손 트래킹이 없을 경우에는 어깨·상체에 사전 확률(prior)을 적용해 안정적인 자세를 만든다. 추정된 포즈와 머리 위치를 기반으로 양안 카메라의 world‑to‑camera 변환 T_CW,e와 내·외부 파라미터 K를 계산해 프레임 단위로 백엔드에 전송한다.
둘째, 백엔드에서 제안한 “Binocular Batching”이다. 기존 스테레오 렌더링은 좌·우 눈을 순차적으로 처리해 GPU 커널 호출·메모리 전송이 두 배가 된다. 저자는 Gaussian 파라미터(p_i,σ_i,r_i,ρ_i,f_i)를 한 번만 GPU 메모리에 적재하고, 두 눈의 투영·가시성만을 별도 계산하도록 설계했다. 이렇게 하면 커널 런치 오버헤드와 데이터 마샬링 비용이 절반으로 감소하고, 캐시 일관성·메모리 지역성이 향상돼 프레임당 렌더링 시간이 크게 단축된다. 실험에서는 30% 이상의 FPS 향상을 보고했으며, 고해상도(2160×1200) VR 디스플레이에서도 90 fps를 유지했다.
셋째, 단일 이미지 기반 3DGS 아바타 재구성 모듈이다. 논문에서는 Large Animatable Human Model(LHM)을 백본으로 사용했으며, 입력 이미지에서 바디와 헤드 특징을 추출해 멀티모달 토큰화 후 Transformer 기반 MBHT(Multimodal Body‑Head Transformer)로 융합한다. 디코더는 canonical Gaussian 집합 χ와 SMPL‑X 리깅 가중치 w_ik, 뼈 변환 T_k(·)를 출력한다. 이렇게 얻은 Gaussian은 SE(3) 변환에 따라 애니메이션이 가능하도록 설계돼, 프론트엔드에서 전달된 θ에 따라 실시간으로 변형된다.
시스템 전체는 로컬호스트 기반 TCP/UDP 통신으로 프론트엔드와 백엔드 간 레이턴시를 최소화했으며, Unity와 Python 사이의 데이터 포맷을 경량화해 1 ms 이하의 전송 지연을 달성했다. 사용자 연구에서는 24명의 피험자를 대상으로 이미지‑기반 메쉬 아바타와 비디오‑기반 메쉬 아바타 두 가지 베이스라인과 비교했으며, 외관 유사도, 자아 구현, 현존감(플라시빌리티) 항목에서 모두 유의미하게 높은 점수를 기록했다. 특히 자아 구현 점수는 기존 메쉬 대비 18% 상승했으며, 이는 HMD‑only 트래킹에도 불구하고 고품질 신경 렌더링이 몰입감을 크게 증진시킨다는 것을 시사한다.
전체적으로 이 논문은 3DGS를 VR 아바타에 적용하기 위한 시스템 설계, 효율적인 스테레오 렌더링 기법, 그리고 사용자 체감 품질 평가까지를 포괄적으로 다루며, 향후 실시간 텔레프레즌스·소셜 VR·게임 등 다양한 응용 분야에 바로 적용 가능한 수준의 기술적 성과를 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기