노이즈 기반 아바타 지오메트리 생성과 가우시안 스플래팅 시각화

읽는 시간: 8 분
...

📝 Abstract

sa (a) Points (b) Depth/Color (c) Normal (d) Mesh 𝐗𝐗 ~𝒩𝒩 Figure 1. Our generative framework produces diverse avatar geometry sequences from noise, with geometries represented as points (a). For visualization, these points can be rendered via Gaussian splatting (GS), producing depth images (b) and normal images (c). Colors (b) can then be obtained by GS optimization, using a depth-guided video generation model (Wan 2.1), while the normal images (c) effectively highlight fine folds and wrinkles. Our synthesized geometries are of high quality and can be directly converted into meshes (d) via Poisson reconstruction. The highlighted regions demonstrate fine-grained garment dynamics that faithfully follow human motion.

💡 Analysis

**

1. 연구 배경 및 동기

  • 세부 디테일 요구: 옷 주름·주동 같은 고주파 구조를 재현하려면 점밀한 표면 표현이 필요하지만, 기존의 템플릿 기반·implicit 방식은 해상도·밀도 한계가 있다.
  • 데이터 부족: 3D 인간 애니메이션 데이터는 수집 비용이 높아 과적합 위험이 크다. 따라서 데이터 효율적인 모델링이 핵심 과제다.

2. 핵심 기여

번호내용의의
Human Geometry Distribution (HuGeoDis) 기반 잠재 공간 – SMPL ↔ 아바타 매핑을 균일화하고, 포인트 수를 크게 줄임고품질 지오메트리를 저비용으로 생성, 긴 시퀀스에도 확장 가능
조건부 흐름 매칭(Flow Matching) 기반 단기 확산 모델 – 짧은 프레임 전이를 학습하고 자동 회귀로 장기 시퀀스 생성다양한 움직임을 포괄하면서도 장기 일관성 보장
가우시안 스플래팅 시각화 파이프라인 – 포인트 → 깊이·노멀·컬러 이미지 → 메쉬 변환시각적 품질 검증이 용이하고, 실시간 렌더링 가능
정량·정성 평가 – Chamfer Distance 90 % 감소, 사용자 연구 2.2× 향상실제 사용 환경에서의 우수성 입증

3. 방법론 상세

  1. 잠재 공간 인코딩

    • HuGeoDis는 각 지오메트리를 정규분포 N(0,1) 로 매핑하고, SMPL 포인트와의 차이 벡터를 목표 분포 T 로 정의한다.
    • 저자는 기존 불균형 샘플링 문제를 SMPL ↔ 아바타 매핑을 사전 정규화함으로써 해결하고, 포인트 수를 크게 감소시켰다.
  2. 플로우 매칭 기반 확산

    • 전통적인 DDPM 대신 Flow Matching을 사용해 연속적인 속도장 uθ를 학습한다.
    • 조건 입력: (a) SMPL 포인트 xS, (b) SMPL 메쉬 S (포즈·바디 형태), (c) 잠재 코드 z (아바타 정체성·의상).
    • 단기 전이(프레임 간)만을 모델링하고, autoregressive 방식으로 긴 시퀀스를 생성한다.
  3. 가우시안 스플래팅(GS) 시각화

    • 생성된 포인트 클라우드를 Gaussian Splatting으로 렌더링해 깊이·노멀·컬러 이미지 생성.
    • 깊이 가이드를 이용해 비디오 생성 모델(Wan 2.1) 로 컬러를 최적화하고, Poisson 재구성으로 메쉬 변환.

4. 실험 및 결과

  • 잠재 공간 평가: 동일한 포인트 수 대비 Chamfer Distance가 기존 방법 대비 90 % 감소.
  • 애니메이션 품질: 사용자 스터디(30명)에서 제안 모델이 기존 GAN·NeRF 기반 모델보다 평균 2.2배 높은 점수를 획득.
  • 효율성: 포인트 수 감소(≈70 %) 덕분에 실시간 수준의 가우시안 스플래팅 렌더링이 가능.

5. 강점

  • 데이터 효율성: 제한된 3D 애니메이션 데이터만으로도 다양한 동작·의상 변형을 학습.
  • 고해상도 디테일: 노멀 이미지에서 옷 주름·주동이 명확히 드러나며, 메쉬 재구성 시 손실이 거의 없음.
  • 모듈화된 파이프라인: 잠재 공간, 확산 모델, GS 시각화가 각각 독립적으로 개선 가능.

6. 한계 및 개선점

항목설명제안
SMPL 의존성 – SMPL이 인간 형태의 기본 틀을 제공하지만, 비표준 체형·비인간 형태(동물·판타지)에는 적용 어려움다중 템플릿(예: SMPL‑X, SMPL‑H) 혹은 template‑free 방식 도입
단기 전이 모델링 – 매우 긴 시퀀스(수천 프레임)에서는 누적 오차가 발생 가능Hierarchical diffusion 혹은 memory‑augmented autoregressive 구조
컬러 최적화 – 현재는 깊이‑가이드 비디오 모델에 의존, 색상 일관성에 제한End‑to‑end joint geometry‑appearance diffusion 설계
실시간 인터랙션 – 현재는 오프라인 학습 후 렌더링; 실시간 제어(예: 사용자 입력)에는 추가 제어 파라미터 필요조건부 latent 조작을 위한 latent‑space 인터페이스 개발

7. 향후 연구 방향

  1. 멀티-모달 확장 – 텍스처·재질·물리적 속성(예: 옷감 강도)까지 포함하는 통합 분포 모델.
  2. 범용 템플릿 – SMPL 외에 다양한 인체·동물 모델을 자동 매핑하는 cross‑domain latent space 구축.
  3. 실시간 제어 – 사용자 인터랙션(포즈, 의상 교체)을 즉시 반영할 수 있는 latent‑space 조작 UI 개발.
  4. 대규모 데이터 학습 – 공개 3D 인간 애니메이션 데이터셋(예: AMASS, Mixamo)과 결합해 zero‑shot 일반화 능력 강화.

8. 결론

본 논문은 노이즈(가우시안) 기반의 잠재 공간과 조건부 흐름 매칭을 결합해, 고품질·고다양성의 인간 아바타 지오메트리 애니메이션을 효율적으로 생성한다는 점에서 큰 의미가 있다. 특히 가우시안 스플래팅을 활용한 시각화 파이프라인은 연구 결과를 직관적으로 검증하고, 실제 응용(게임·VR·AR)으로 연결하기에 적합하다. 다만 SMPL 의존성 및 장기 시퀀스 안정성 등 몇몇 제한점은 향후 연구에서 보완될 필요가 있다. 전반적으로 3D 인간 애니메이션 생성 분야에 새로운 패러다임을 제시한 뛰어난 작업이라 평가한다.

📄 Content

인간 기하학 분포를 이용한 3D 애니메이션 생성
Xiangjun Tang, Biao Zhang, Peter Wonka*
King Abdullah University of Science and Technology
{xiangjun.tang, biao.zhang, peter.wonka}@kaust.edu.sa

(a) 포인트
(b) 깊이/색상
(c) 노멀
(d) 메시

[ \mathbf{X}\sim\mathcal{N} ]

그림 1. 우리의 생성 프레임워크는 노이즈로부터 다양한 아바타 기하학 시퀀스를 생성한다. 기하학은 포인트(a) 형태로 표현된다. 시각화를 위해 이 포인트들은 Gaussian splatting(GS)으로 렌더링될 수 있으며, 그 결과 깊이 이미지(b)와 노멀 이미지(c)를 얻는다. 색상(b)은 깊이‑가이드 비디오 생성 모델(Wan 2.1)을 이용한 GS 최적화를 통해 얻어지며, 노멀 이미지(c)는 섬세한 주름과 접힘을 효과적으로 강조한다. 합성된 기하학은 높은 품질을 유지하며, Poisson 재구성을 통해 메쉬(d)로 직접 변환될 수 있다. 강조된 영역은 인간 움직임을 충실히 따라가는 섬세한 의복 동역학을 보여준다.


초록

현실적인 인간 기하학 애니메이션을 생성하는 일은 제한된 데이터 하에서 섬세한 기하학적 디테일을 갖는 자연스러운 의복 동역학을 모델링해야 하기 때문에 여전히 어려운 과제이다. 이러한 문제를 해결하기 위해 우리는 두 가지 새로운 설계를 제안한다. 첫째, 효율적이고 고품질의 기하학 생성을 가능하게 하는 컴팩트한 분포 기반 잠재 표현을 제안한다. 기존 작업을 개선하여 SMPL과 아바타 기하학 사이의 매핑을 보다 균일하게 만든다. 둘째, 제한된 모션 데이터의 다양성을 최대한 활용하는 생성 애니메이션 모델을 도입한다. 우리는 짧은 기간 전이(short‑term transitions)에 초점을 맞추면서, 아이덴티티‑조건부 설계를 통해 장기적인 일관성을 유지한다. 이 두 설계는 우리 방법을 두 단계 프레임워크로 만든다: 첫 단계는 잠재 공간을 학습하고, 두 번째 단계는 해당 잠재 공간 내에서 애니메이션을 생성한다. 우리는 잠재 공간과 애니메이션 모델 모두에 대해 실험을 수행하였다. 결과적으로 우리 잠재 공간은 이전 방법보다 90 % 낮은 Chamfer Distance를 보이며 고충실도 인간 기하학을 생성한다. 애니메이션 모델은 상세하고 자연스러운 동역학을 가진 다양한 애니메이션을 합성해 사용자 연구 점수에서 2.2배 높은 성과를 기록했으며, 모든 평가 지표에서 최고의 결과를 달성하였다.


1. 서론

3D 인간 기하학 애니메이션 생성은 시각 생성 및 인간 모델링 분야의 기본 과제이다. 목표는 섬세한 기하학적 디테일을 포함한 자연스러운 동역학을 합성하는 것이며, 이는 여러 난관을 동반한다. 첫째, 주름과 접힘과 같은 미세한 기하학 구조를 모델링해야 한다. 둘째, 3D 애니메이션 데이터가 제한적이기 때문에 모델이 쉽게 과적합(overfit)되어 인간 움직임에 대한 현실적인 의복 변형을 재현하지 못한다.

초기 연구[28, 33, 34]는 특정 의복에 대한 동역학을 학습하거나, 비디오·스캔 데이터로부터 아바타를 모델링했다[11, 17‑19, 23, 29, 32, 40, 41, 45, 53, 61]. 이러한 접근은 제한된 데이터에서도 그럴듯한 동역학을 합성할 수 있지만, 생성 모델이 아니므로 새로운 아바타·의복에 일반화되지 못한다. 반면, 생성형 아바타 모델[6, 13, 16, 22, 51, 59, 62]은 다양한 아이덴티티를 다루고 일반화 능력이 뛰어나지만, 고충실도 기하학을 유지하고 현실적인 의복 변형을 학습하는 데 한계가 있다. 현재까지 두 요구사항을 모두 만족하는 방법은 존재하지 않는다.

이러한 문제를 해결하기 위해 우리는 두 가지 핵심 설계를 제안한다.

  1. Human Geometry Distribution (HuGeoDis) 기반 잠재 표현
    HuGeoDis[39]는 컴팩트한 잠재 표현을 통해 고충실도 기하학을 합성한다. 그러나 원래 HuGeoDis는 불균형 샘플링 문제를 안고 있다: 충분히 기하학을 커버하려면 많은 포인트가 필요하고, 샘플이 부족한 영역에서는 재구성 아티팩트가 발생한다. 이를 완화하기 위해 우리는 SMPL과 아바타 기하학 사이의 매핑을 보다 균일하게 만든 뒤, 해당 매핑을 이용해 학습한다. 이 설계는 적은 포인트 수로도 높은 품질의 기하학을 생성하게 하여, 긴 애니메이션 시퀀스에 대한 효율성을 크게 향상시킨다.

  2. 제한된 3D 인간 애니메이션 데이터를 활용하는 생성 애니메이션 모델
    우리는 조건부 확산(diffusion) 모델을 사용해 짧은 기간 전이를 모델링한다. 기존 연구[37]에 따르면, 짧은 전이를 모델링하는 것이 긴 시퀀스를 직접 모델링하는 것보다 다양한 모션 데이터를 더 효과적으로 활용한다. 긴 시퀀스는 이러한 전이들을 자동 회귀(autoregressive) 방식으로 연결해 생성하며, 확산 모델에 조건 입력을 제공함으로써 장기적인 일관성을 유지한다.

우리는 위 두 설계를 바탕으로 두 단계 프레임워크를 구축한다. 첫 단계는 잠재 공간을 학습하고, 두 번째 단계는 해당 잠재 공간 내에서 애니메이션을 생성한다.

실험

잠재 공간에 대해서는 재구성 정확도와 효율성을 평가하고, 정적 랜덤 아바타 생성(avatar generation) 벤치마크에서도 성능을 검증한다. 결과는 기존 방법 대비 Chamfer Distance가 90 % 감소하고, 기하학 품질이 크게 향상됨을 보여준다.

애니메이션 모델에 대해서는 다양한 인간 기하학과 섬세한 의복 동역학을 합성하는 능력을 평가한다. 사용자 연구에서 2.2배 높은 점수를 기록했으며, 모든 정량적 평가 지표에서도 최고 성능을 달성했다.

주요 기여

  • 인간 기하학 애니메이션을 생성하면서 섬세한 기하학 디테일과 자연스러운 동역학을 동시에 포착하는 최초의 프레임워크를 제시한다.
  • 고충실도 인간 기하학을 효율적으로 표현할 수 있는 컴팩트하고 표현력이 풍부한 분포 기반 잠재 공간을 제안한다.
  • 소규모 3D 애니메이션 데이터만으로도 다양한 3D 인간 애니메이션을 합성할 수 있는 새로운 생성 애니메이션 모델을 개발한다.

2. 관련 연구

2.1 데이터 기반 의복 변형

의복 애니메이션·시뮬레이션은 컴퓨터 그래픽스·비전 분야에서 오래된 핵심 문제이다. 물리 기반 시뮬레이션은 높은 충실도를 제공하지만, 연산 비용이 높고 확장성이 낮다. 이를 극복하기 위해 데이터 기반 접근법이 등장했으며, 다양한 포즈·체형을 가진 의복 캐릭터 예시를 통해 물리 기반 변형을 근사한다[33]. 예를 들어 TailorNet[28]은 의복 변형을 인간 포즈·체형·의복 스타일의 함수로 모델링한다. GarNet[9, 10]은 곡률 기반 제약을 도입하고, Santesteban et al.[34]은 자기 지도(self‑supervised) 방식으로 의복‑신체 상호작용을 학습한다.

다른 연구들은 신경망 대체 모델을 통해 물리 기반 시뮬레이션을 근사한다. PBNS[3]는 타이트한 의복에 대한 신경망 대체 모델을 학습하고, Pan et al.[27]은 스커트와 같은 느슨한 의복을 뼈 기반 변형으로 예측한다. DeePSD[4]는 의복 메시로부터 블렌드 가중치와 변형을 직접 예측해, 보지 못한 의복에 대한 중간 수준의 일반화 능력을 보인다. 그러나 이들 방법은 주로 의복 자체에 초점을 맞추며, 인간 신체와의 통합적인 생성 작업에는 한계가 있다.

2.2 애니메이션 가능한 아바타 모델링

애니메이션 가능한 인간 모델링은 다중 뷰 비디오·3D 스캔으로부터 고충실도 아바타를 복원하고, 새로운 포즈에 따라 구동할 수 있게 하는 것이 목표다. 초기 접근법은 거친 메시를 구조적 프라이어(predefined coarse mesh)로 사용하고[11, 18, 29, 45, 55, 61], 동적 디테일을 학습된 변형 네트워크를 통해 템플릿에 부착한다[11, 18, 55]. Gaussian 기반 표현[18, 19]은 3D 표현과 렌더링을 통합하는 직접적인 형태를 제공한다.

템플릿 기반 파이프라인 외에도 암시적(implicit) 표현이 연구되었다. 포즈[17, 40, 41]나 스키닝 가중치[32]와 같은 동적 파라미터에 조건을 걸어 애니메이션 가능한 아바타를 모델링한다. PGAHuman[41]은 점유 필드(occupancy field)에서 빈 영역을 제외함으로써 재구성 충실도를 높인다.

또 다른 흐름은 기하학 자체에 초점을 맞춘다. 일부 연구는 아바타를 포인트 클라우드로 모델링한다. 예를 들어 CloSET[53]은 SMPL 정점에 바인딩된 특징을 디코딩해 포인트 클라우드로 변환하고, SCALE[23]은 포인트를 로컬 패치로 클러스터링한다. 이러한 방법은 토폴로지를 자유롭게 변형할 수 있지만, 샘플링 밀도가 낮아 특히 느슨하거나 고주파 영역에서 디테일이 부족하다. DPF[29]는 정규 공간에서 포즈된 인간 공간으로의 전이 필드(transition field)를 학습해 밀도 높은 연속 샘플링을 가능하게 한다. 우리의 접근법은 SMPL 모델과 아바타 사이의 분포를 구축한다는 점에서 영감을 받았다.

요약하면, 현재 방법들은 보지 못한 포즈에 대해 고충실도 아바타를 생성할 수 있지만, 각 아바타마다 비디오·3D 스캔이 필요하고, 다양한 아바타·모션에 대한 생성형 표현을 제공하지 않는다.

2.3 3D 아바타 생성

애니메이션 모델링과 달리, 생성형 방법은 분포 학습을 위한 컴팩트한 표현이 필요하다. 이는 고충실도 합성을 위한 큰 도전이다. 많은 연구가 GAN을 이용해 tri‑plane이나 NeRF 기반 표현을 합성한다[25, 43, 44, 49, 54]. 이러한 방법은 사진 수준의 외관을 생성하는 데는 효과적이지만, 렌더링 속도·해상도에 제한이 있어

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키