오디오에서 몸 동작 예측 및 아바타 애니메이션
본 논문은 바이올린·피아노 연주 오디오를 입력으로 받아, 해당 연주자의 몸과 손의 2D 스켈레톤 포인트를 예측하고 이를 기반으로 3D 아바타를 실시간으로 애니메이션하는 시스템을 제안한다. LSTM 기반 모델이 MFCC 오디오 특징과 PCA 압축된 키포인트 사이의 관계를 학습하며, 공개된 연주 영상 데이터를 활용해 훈련한다. 결과는 자연스러운 몸 동작을 재현함을 보여준다.
저자: Eli Shlizerman, Lucio M. Dery, Hayden Schoen
본 논문은 오디오 신호만을 이용해 피아노와 바이올린 연주자의 전신 및 손가락 움직임을 예측하고, 이를 기반으로 3D 아바타를 애니메이션하는 시스템을 제안한다. 연구 동기는 음악 연주 시 몸과 손이 어떻게 움직이는지를 자동으로 재현함으로써 가상 공연, 교육, 인터랙티브 콘텐츠 등에 활용 가능성을 탐색하는 데 있다.
먼저 데이터 수집 단계에서 저자들은 유튜브에 공개된 고화질 솔로 연주 영상을 선택했다. 영상은 고정된 카메라, 밝은 조명, 배경 소음이 없는 조건을 만족하도록 필터링했으며, 바이올린 3.6시간, 피아노 4.4시간의 데이터를 확보했다. 각 영상에서 프레임당 50개의 2D 키포인트(양손 21점, 상체 8점 등)를 추출하기 위해 OpenPose, MaskRCNN, DeepFace 세 가지 알고리즘을 병합한 파이프라인을 구축했다. 얼굴 인식 기반 서명 매칭과 위치·거리 기준을 통해 프레임별 오류를 자동으로 제거함으로써 고품질 포즈 시퀀스를 만든다.
키포인트 시계열은 2 × p 차원의 행렬로 정렬된 뒤, 전체 프레임에 대해 주성분 분석(PCA)을 수행한다. 90 % 설명력을 유지하도록 10개의 주성분을 선택했으며, 이는 차원 축소와 잡음 억제 역할을 한다. 오디오 측면에서는 13차원 MFCC와 그 시간 미분, 로그 평균 에너지 등을 포함한 28차원 특성을 41.66 ms 윈도우(영상 fps와 일치)로 추출했다.
핵심 모델은 단일 레이어 LSTM(Long‑Short‑Term Memory)이며, 입력은 MFCC 시퀀스, 출력은 PCA 계수이다. 시간 지연(5프레임)을 도입해 과거 오디오 정보를 활용하고, 완전 연결층을 추가해 예측 성능을 향상시켰다. 학습 파라미터는 숨은 상태 200, 배치 크기 미정, 학습률 5e‑3, 드롭아웃 0.4, 300 epoch이며, ADAM 옵티마이저와 평균 제곱 오차 손실 함수를 사용했다. 훈련 과정에서 에포크가 진행될수록 PCA 계수 예측 정확도가 꾸준히 상승함을 그래프로 제시한다.
예측된 2D 포인트를 3D 아바타에 적용하는 단계에서는 ARKit 기반 iOS 애플리케이션을 구현했다. 먼저 어깨와 골반 평균 위치를 이용해 루트 변환을 수행하고, 스파인 길이를 스케일링한다. 팔은 손목을 기준으로 IK 체인을 구성해 전방/후방 회전을 계산하고, 손가락은 각 관절 간 각도를 이용해 회전시킨다. 바이올린 경우에는 바이올린 몸체와 활을 각각 머리와 오른손에 고정시키는 제약을 추가해 실제 연주 자세를 재현한다. 최종 결과물은 오디오와 동기화된 아바타가 피아노 혹은 바이올린을 연주하는 영상이며, 보조 자료에 실제 동영상이 제공된다.
논문의 주요 기여는 (1) 오디오만으로 전신 및 손가락 움직임을 예측한다는 새로운 문제 정의, (2) “in the wild” 영상에서 신뢰성 높은 키포인트를 추출하기 위한 다중 알고리즘 파이프라인, (3) PCA 기반 차원 축소와 LSTM을 결합한 효율적인 시계열 매핑 모델, (4) 예측 포즈를 실시간 3D 아바타에 적용하는 전처리·리깅 기술이다.
한편 한계점으로는 2D 포인트 기반이므로 깊이 정보가 부족해 카메라 시점 변화에 취약하고, 손가락 세부 움직임이 다소 부자연스러울 수 있다. 또한 데이터가 피아노와 바이올린에 국한돼 있어 다른 악기나 합주 상황에 대한 일반화가 아직 검증되지 않았다. 향후 연구에서는 3D 포즈 추정, 멀티모달(오디오+비디오) 학습, MIDI와의 연계, 다양한 악기 및 다중 연주자 데이터 확장을 통해 보다 정교하고 다양성 있는 움직임을 생성하는 방향으로 나아갈 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기