스켈레톤 가우시안: 편집 가능한 4D 동적 생성 프레임워크
초록
SkeletonGaussian은 단일 영상 입력으로 동적 3D 가우시안 모델을 생성하고, 추출된 스켈레톤을 이용해 선형 블렌드 스키닝(LBS)으로 강체 움직임을 제어한 뒤, 헥스플레인 기반 비강체 변형 필드를 추가해 세밀한 변형을 보완한다. 이 계층적 구조는 파라미터 효율성을 높이고, 실시간 스켈레톤 편집을 가능하게 하여 기존 암시적 변형 필드 방식보다 높은 품질과 편집성을 제공한다.
상세 분석
본 논문은 4D(시간을 포함한 3D) 생성 분야에서 기존의 암시적 변형 필드 방식이 갖는 제어성·편집성 부족 문제를 근본적으로 해결하고자 한다. 핵심 아이디어는 ‘스켈레톤 기반의 계층적 변형 모델’을 도입해 움직임을 두 단계로 분리한다는 점이다. 첫 번째 단계는 UniRig(또는 Coverage Axis++)을 이용해 입력 비디오의 중간 프레임에서 정적 3D 가우시안 모델을 구축하고, 점 구름을 메쉬화한 뒤 최소 신장 트리를 통해 관절 후보를 연결해 범용 스켈레톤을 추출한다. 이 스켈레톤은 관절 수 B에 비례하는 파라미터만을 필요로 하며, 시간 T에 따라 선형 블렌드 스키닝(LBS)으로 강체 변형을 적용한다. 구체적으로 각 가우시안 포인트 i에 대해 K‑nearest joint를 찾아 역거리 가중치 w_{k,i}를 부여하고, 관절 변환 행렬 B_k(θ_t)와 가중치를 합산해 변환 행렬 T_i를 만든다. 이를 통해 포인트의 위치와 회전(쿼터니언)을 변환함으로써 ‘강체’ 움직임을 재현한다.
두 번째 단계는 헥스플레인(hexplane)과 MLP 기반의 비강체 변형 필드를 도입해 세밀한 디테일을 보완한다. 여기서 헥스플레인은 3D 공간을 6면(플레인)으로 분할해 각 면에 변형 벡터를 학습시키는 구조로, 기존 MLP‑only 방식보다 파라미터 효율성이 높고, 고주파 변형(예: 옷 주름, 피부 탄성)을 효과적으로 캡처한다. 이 단계에서는 이미 학습된 스켈레톤 파라미터를 고정하고, 가우시안 자체와 헥스플레인 변형 필드만을 최적화한다.
학습 목표는 다중 뷰 SDS 손실과 포토메트릭 손실을 결합한 MV‑SDS이며, 가우시안 렌더러를 통해 관측 공간 이미지와 입력 비디오 프레임을 비교한다. 이렇게 함으로써 정적 가우시안, 강체 스켈레톤 변형, 비강체 세부 변형을 모두 통합적으로 최적화한다.
주요 장점은 다음과 같다. 첫째, 파라미터 복잡도가 O(B·T)로 선형이며, 이는 기존 변형 필드가 시간에 따라 O(T²) 혹은 O(T·V) (V는 공간 해상도)로 증가하는 것에 비해 크게 감소한다. 둘째, 스켈레톤 기반 변형은 기존 애니메이션 툴(Blender, Maya 등)과의 호환성을 제공한다. 사용자는 관절 회전(쿼터니언)과 루트 트랜슬레이션을 직접 조작해 실시간으로 동작을 수정할 수 있으며, 결과를 표준 BVH 혹은 FBX 포맷으로 내보낼 수 있다. 셋째, 헥스플레인‑MLP 결합은 비강체 변형을 고해상도로 재현하면서도 학습 비용을 크게 늘리지 않는다.
실험에서는 Consistent4D 데이터셋을 활용해 정량적 지표(PSNR, LPIPS, FID)와 정성적 시각 비교를 수행했으며, 기존 동적 가우시안 방법(예: Dynamic‑GS, SC‑GS) 대비 평균 0.81.2 dB PSNR 향상과 시각적 디테일 보존에서 우수함을 보였다. 또한, 스켈레톤 편집 실험에서 사용자는 510초 이내에 원하는 포즈를 적용할 수 있었으며, 재학습 없이 즉시 결과를 확인할 수 있었다.
한계점으로는 스켈레톤 추출이 복잡한 비인간 형태(예: 나무, 차량)에서 정확도가 떨어질 수 있다는 점과, 헥스플레인 파라미터가 고정된 경우 매우 큰 변형(예: 급격한 파손)에는 충분히 대응하지 못한다는 점을 언급한다. 향후 연구에서는 학습 기반 스킨닝 가중치와 동적 헥스플레인 구조를 도입해 이러한 문제를 보완하고, 텍스트‑투‑4D와 같은 조건부 생성에도 확장할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기