경량 고품질 저비트레이트 3D 토킹페이스 압축

경량 고품질 저비트레이트 3D 토킹페이스 압축
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 FLAME 파라메트릭 모델과 3D Gaussian Splatting(3DGS)을 결합해, 실시간 3D 화상 회의에 적합한 경량 고품질 저비트레이트 토킹페이스 압축 프레임워크를 제안한다. 얼굴 메타데이터(표정·포즈 파라미터)만 전송하고, 사전 전송된 Gaussian 기반 헤드 모델을 이용해 고해상도 얼굴 영상을 재구성한다. Gaussian 속성 압축·MLP 경량화 기법을 통해 모델 크기를 7배 이상 줄이고, 170 fps 이상의 렌더링 속도를 달성한다. 실험 결과, 기존 2D 코덱(x265) 및 NeRF 기반 방법보다 낮은 비트레이트에서 PSNR·SSIM·LPIPS 모두 우수한 성능을 보인다.

상세 분석

이 연구는 3D 화상 회의라는 실시간 양방향 커뮤니케이션 시나리오에서 발생하는 두 가지 핵심 제약, 즉 ‘고품질 3D 얼굴 재현’과 ‘극한 저비트레이트 전송’을 동시에 해결하려는 시도로 평가할 수 있다. 기존 2D 비디오 코덱은 픽셀 기반 압축에 최적화돼 다중 시점·깊이 정보를 담지 못하고, NeRF와 같은 암시적 신경 표현은 고해상도 렌더링을 제공하지만 연산량·메모리 요구가 prohibitive하여 실시간 서비스에 부적합하다. 논문은 이러한 한계를 FLAME(3D Morphable Model)과 3DGS(3D Gaussian Splatting)의 장점을 융합함으로써 극복한다.

첫 번째 핵심은 ‘메타데이터 전송’이다. 입력 영상에서 실시간으로 FLAME 파라미터(표정 ψ와 포즈 θ)를 추출하고, 이를 0‑order Exponential‑Golomb 코딩으로 압축한다. 표정 파라미터는 PCA 기반으로 차원 축소가 가능해 10~50 차원만 사용해도 충분히 얼굴 변화를 표현한다. 실험에서는 전체 전송 비트 중 82 %가 표정 파라미터에 해당한다는 점을 강조하며, 차원 감소가 비트레이트 절감에 직접적인 영향을 미친다.

두 번째는 ‘Gaussian 기반 헤드 모델’이다. FLAME 메쉬 위에 UV 샘플링을 적용해 고정된 수량의 Gaussian을 배치하고, 각 Gaussian의 위치·스케일·회전·불투명도 등을 MLP(Fθ)로 오프셋한다. 여기서 MLP는 표정 파라미터와 메쉬 좌표를 입력받아 Gaussian 속성을 동적으로 조정한다. 이 구조는 기존 3DGS 압축 방식에서 흔히 수행하는 프루닝이나 격자 재구성을 필요 없게 하며, 모델 크기를 크게 줄이는 데 기여한다.

세 번째는 ‘속성 압축 파이프라인’이다. Gaussian 속성 중 동적으로 재생성되는 위치 µ는 전송하지 않고, 색상(h_base), 고차 SH 계수(h_rest), 스케일(s), 회전(r), 불투명도(o)만 압축한다. 정밀도가 낮은 h_rest, r, o는 저차원 잠재 벡터(h_ql_rest, r_ql, o_ql)로 인코딩하고, 고정밀 h_base와 s는 직접 양자화 후 엔트로피 코딩한다. 이후 전체 모델(잠재 벡터, 디코더, 양자화된 속성)과 MLP를 LZ77으로 무손실 압축해 최종 0.59 MB(압축 전 4.3 MB)로 축소한다.

네 번째는 ‘실시간 렌더링 성능’이다. 압축된 모델을 디코딩한 뒤, FLAME 파라미터와 MLP 오프셋을 적용해 Gaussian을 재배치하고, 3DGS 볼류미터 렌더링 파이프라인을 통해 170 fps 이상의 프레임 레이트를 달성한다. 이는 다중 사용자 회의에서도 충분히 실시간성을 보장한다는 의미다.

실험에서는 x265 LDP(비트레이트 40 kbps 이하)와 NeRF 기반 압축(동일 비트레이트) 대비 PSNR, SSIM, LPIPS 모두 유의미하게 우수함을 보였으며, 특히 저비트레이트(≤ 20 kbps) 구간에서 기존 방법이 보이는 블록 현상·세부 디테일 손실을 최소화했다. 또한, 모델 크기와 렌더링 속도 비교 표(Table I)에서 압축된 NeRF 모델이 18 MB·25 fps에 머무는 반면, 제안 모델은 0.59 MB·175 fps를 기록해 실용적 차이를 명확히 보여준다.

요약하면, 이 논문은 ① 메타데이터 기반 전송, ② 고정된 Gaussian 기반 헤드 모델, ③ 다단계 속성 압축, ④ 경량 MLP 최적화라는 네 가지 기술적 혁신을 결합해, 저비트레이트 환경에서도 고품질 3D 얼굴 재현을 실시간으로 가능하게 만든다. 향후 다중 사용자 환경 및 네트워크 변동성에 대한 견고성 연구가 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기