노래봇 감성 가창 로봇얼굴의 새로운 시대

읽는 시간: 9 분
...

📝 원문 정보

- Title: SingingBot An Avatar-Driven System for Robotic Face Singing Performance
- ArXiv ID: 2601.02125
- 발행일: 2026-01-05
- 저자: Zhuoxiong Xu, Xuanchen Li, Yuhao Cheng, Fei Xu, Yichao Yan, Xiaokang Yang

📝 초록

이 논문은 로봇의 노래를 표현하는 방법을 제안하며, 이는 인간의 감정과 행동을 모방하는 중요한 기준이다. 특히, 데이터 주도적인 접근법을 사용하여 가수의 감정과 리듬에 맞춰 로봇의 얼굴 표정을 동기화시키는 데 중점을 두었다. 이를 통해 로봇은 노래하면서 자연스러운 입동작과 감정 표현을 할 수 있다.

💡 논문 해설

1. **제안된 프레임워크**: - **쉬운 설명**: 이 논문은 로봇이 노래할 때, 인간의 표정과 같은 복잡한 감정을 표현하는 방법을 제안한다. - **중간 수준 설명**: 기존의 데이터 주도적인 접근법은 로봇 얼굴에 표시되는 단순한 표정만 가능했지만, 이 논문은 더 많은 종류의 표정과 감정을 표현할 수 있는 새로운 프레임워크를 제안한다. - **고급 설명**: 이 논문에서는 학습된 대규모 인간 데이터를 활용해 로봇이 노래하면서 복잡한 감정을 표현하는 방법을 제시하고 있다.
  1. 표현 범위 측정 지표 (EDR):

    • 쉬운 설명: 이 논문은 로봇의 표정이 얼마나 다양한 감정을 표현할 수 있는지 측정하는 새로운 방법을 소개한다.
    • 중간 수준 설명: EDR이라는 새로운 지표를 통해 로봇의 감정 표현 범위를 정량화하며, 이를 통해 로봇이 더 자연스러운 노래 연기를 할 수 있다.
    • 고급 설명: 이 논문에서는 Valence-Arousal 공간을 이용해 감정 변화의 폭을 측정하는 Emotion Dynamic Range (EDR) 지표를 제안한다.
  2. 실험 결과:

    • 쉬운 설명: 논문은 다양한 실험을 통해 제안된 방법이 기존 방식보다 우수함을 보여준다.
    • 중간 수준 설명: 여러 가지 노래 전략을 비교한 결과, 이 논문에서 제시된 방법이 가장 뛰어난 성능을 보였으며, 특히 감정 표현과 입동작 정확도 측면에서 탁월하다.
    • 고급 설명: 실험에서는 다양한 노래 전략을 비교했고, 제안된 SingingBot 프레임워크가 기존 방법보다 뛰어난 입동작 동기화와 감정 표현 범위를 보여주었다.

📄 논문 발췌 (ArXiv Source)

로봇 얼굴, 표정 애니메이션, 모터 제어

서론

노래는 언어나 문화를 초월하여 감정을 표현하는 보편적인 방법이다. 말과 달리 노래는 멜로디와 리듬에 의해 제약되는 연속적인 발음이 필요하며, 이는 더 긴 모음을 요구하고 특정 가사를 표현해야 한다. 따라서 인간형 로봇에게 노래 능력을 부여하는 것은 인간 행동 재현을 평가하는 중요한 기준이며 동반자, 수용성 및 엔터테인먼트 분야에서 자연스러운 인간-로봇 상호작용에 대한 중요한 단계이다. 그러나 표현의 일관성과 감정의 폭이 높은 요구 사항으로 인해 이 작업은 매우 어려움을 겪고 있다.

초기 로봇 표정 애니메이션 접근법은 주로 사전 정의된 표현 집합 사이의 보간 또는 사전 프로그래밍된 하드웨어에 의존했다. 이러한 방법들은 표현 라이브러리 크기에 제한을 받고 노래에서 내재된 미묘한 표정과 감정을 포착하는 것이 어렵다. 이러한 문제를 해결하기 위해 최근의 데이터 주도 연구는 학습을 통해 짝지어진 데이터로부터 자동 모터 제어에 초점을 맞추고 있다. 한 범주에서는 동역학을 사용하여 오디오와 함께 애니메이션을 생성하지만 주로 대화를 목표로 하며 노래 애니메이션을 생성하지 못한다. 다른 범주에서는 이미지 공간에서 인간 표정을 로봇으로 전송하지만 일반적으로 정적 표현 매칭에 초점을 맞추어 노래 공연에 중요한 일관된 감정 표현을 간과한다. 이러한 두 가지 유형의 접근법은 로봇이 노래하는 데 쉽게 적용할 수 없다.

기존 연구와 달리, 우리는 비디오 확산 모델 내부의 강력한 인간 사전 지식을 활용하여 실제 로봇 노래를 가능하게 하는 프레임워크를 제시한다. 구체적으로, 우리는 사람 중심의 비디오 확산 변환기를 사용하여 제어 가능한 2D 초상 애니메이션을 합성하고 이를 로봇 공연의 주도 원천으로 활용한다. 그런 다음 세미안틱 기반 분할 매핑 전략을 적용하여 아바타의 표정 특징을 물리적인 로봇에 전송하여 모터 제어 값을 생성한다. 현재 존재하는 데이터 주도 접근법과 달리, 세미안틱 기반 매핑은 더 큰 표현 공간을 확보하며 마지막 공연에서 감정 미묘함과 입동작 정확성을 보장한다.

또한 로봇 노래 성능을 인지 수준으로 측정하는 것은 여전히 큰 도전이다. 현재 오디오 주도 애니메이션 방법은 입동작 동기화에 초점을 맞추지만 감정의 풍부함을 간과한다. 영향 컴퓨팅에서 영감을 받아, 우리는 감성 모델의 Valence-Arousal (VA) 공간에서 미묘한 감정 차이를 포착하는 방법으로 Emotion Dynamic Range (EDR)이라는 지표를 제안하여 감정 폭을 정량화한다. 구체적으로 VA 공간 내에서 감정 궤적을 형성하는 볼록 껍질의 면적을 비교함으로써, 우리의 방법은 표현력 있는 공연을 달성하면서 정확한 입동작 동기화를 유지하며 기준선보다 크게 우수하다는 것을 보여준다.

우리의 기여는 다음과 같이 요약된다: (1) 우리는 프롬프트 제어 애니메이션을 로봇 얼굴에 전송하는 프레임워크를 제안하여 풍부한 입동작과 감정으로 디지털 인간과 물리적 로봇 간의 격차를 극복한다. (2) 우리는 노래 공연에서 감정 풍부함 평가의 중요성을 드러내고 VA 공간을 기반으로 감정 폭을 정량화하는 지표인 Emotion Dynamic Range (EDR)을 제안한다. (3) 다양한 노래 전략에 대한 광범위한 실험을 수행하며 양적 및 질적으로 우리의 시스템이 최고 성능을 달성함을 보여준다.

관련 연구

애니메트론 로봇 얼굴 제어. 로봇 표현 생성은 생물학적 근육과 희박한 모터 간의 구조적 격차, 그리고 실리콘 피부의 복잡한 비선형 변형에 의해 방해된다. 전통적인 방법은 사전 정의된 표정 기저 사이의 보간을 사용하지만 표현력이 부족하고 일반화가 어렵다. 최근 학습 중심 접근법은 신경망을 사용하여 오디오나 이미지를 직접적으로 모터 매개변수로 맵핑하거나 훈련된 추적자를 통해 이를 수행한다. 그러나 짝지어진 데이터의 부재로 인해 이러한 작업들은 일반적으로 간단한 대화 시나리오를 목표로 하며, 시간 일관성과 연속적인 감정 표현을 간과하는 경향이 있다. UGotMe와 같은 작업은 공감적 상호작용을 위한 감정 분류를 도입했지만 고정된 감정 기저에 의존하며 노래를 위해 동기화된 입동작과 함께 감정 표현을 공동 생성하지 못한다. 우리의 연구는 로봇이 노래하는 것에 중점을 두며 대규모 인간 사전 지식을 활용해 높은 현실감과 감정 풍부함을 달성함으로써 이를 구별한다.

오디오 주도 아바타 표정 애니메이션. 오디오 주도 아바타와 로봇 애니메이션의 기본적인 도전 과제는 오디오와 얼굴 동역학 간의 복잡한 맵핑을 모델링하는 것이다. 3D 말하는 머리 방법은 제약된 어노테이트 데이터로 인해 과장된 표정이나 노래에 일반화하기 어렵다. 반면, 2D 방법은 웹 규모의 데이터를 활용하여 강력한 인간 사전 지식을 추출하고 풍부한 감정과 미세표정, 프롬프트 기반 제어로 실제 동영상을 생성한다. 우리는 이러한 학습된 2D 인간 사전 지식을 신뢰성 있고 유연한 주도 원천으로 활용하여 아바타와 로봇 간의 격차를 극복한다. 이러한 가상 아바타 표정 특징을 물리적 로봇 도메인에 전송함으로써 우리는 로봇에게 노래 능력을 부여하고 연속적인 감정과 표현력 있는 발음에 대한 높은 요구 사항을 충족시킨다.

방법론

/>
SingingBot의 전체 파이프라인. 노래 오디오와 참조 초상화를 주어진 우리의 방법은 먼저 학습된 비디오 확산 모델을 사용해 생생한 아바타 노래 애니메이션을 합성한다. 내장된 광범위한 표현과 감정 사전 지식으로 인해, 아바타 애니메이션은 후속 로봇 공연을 위한 신뢰할 수 있는 주도 원천이 된다. 세미안틱 기반 분할 함수를 통해 아바타의 표정 특징이 물리적 로봇 동작 공간에 매핑되어 일관되고 흥미로운 로봇 노래 공연을 달성한다.

우리의 목표는 가사와 노래 오디오에 맞춰진 로봇 얼굴 애니메이션을 생성하는 것이다. 구체적으로, $`\mathbf{T}`$ 프레임 오디오 $`\mathbf{A}_{0:T-1}`$, 우리의 프레임워크는 각 동작 벡터가 0에서 1 사이의 제어 값을 갖는 $`d`$ 자유도(DoFs)를 가진 로봇 얼굴 동작 $`\mathbf{M}_{0:T-1}=\{\mathbf{m}_i\in \mathbb{R}^{d}\}_{i=0}^{T-1}`$을 생성한다.

이러한 목표를 달성하기 위해, 우리는 SingingBot을 제안하며 그 개요는 Fig. 1에 보여져 있다. 먼저, 대규모 인간 사전 지식을 기반으로 학습된 비디오 확산 모델을 사용해 실제 2D 초상 동영상을 오디오 오디오에서 합성한다(Sec. 3.1). 이러한 생성된 동영상은 우리의 로봇 얼굴을 위한 중간 주도 원천으로 사용된다. 우리의 방법은 합성 동영상을 기반으로 표정 추출기를 사용해 표현 벡터를 파생한다. 그런 다음 잘 설계된 분할 매핑 함수를 적용하여 이러한 표현 벡터를 모터 작동 매개변수로 변환하고 최종 로봇 얼굴 애니메이션을 얻는다(Sec. 3.2).

초상 애니메이션 합성

모터 매개변수를 직접 회귀하는 것은 대규모 짝지어진 모터와 표현 데이터의 부재로 인해 큰 도전이다. 따라서 많은 이전 연구는 중간 표현, 예를 들어 표정 랜드마크나 운용 가능한 로봇 추적자 등을 사용하여 로봇 얼굴을 구동했다. 그러나 이러한 접근법들은 노래 시나리오에 적용하기 어렵다. 노래 공연은 지속적이며 감정이 충만한 표현을 요구하므로 랜드마크 주도 방법은 그 부족함과 외관의 부재로 인해 감정을 전달하는 것이 어렵다. 마찬가지로, 제약된 훈련 데이터에 의해 제한받는 가상 로봇 추적자는 실제적인 노래를 위해 필요한 다양한 감정과 복잡한 표현에 일반화하기 어려운 경향이 있다. 대규모 인간 중심 데이터에서 학습된 비디오 확산 변환기의 최근 진보에 착안하여, 내장된 광범위한 인간 사전 지식은 로봇 얼굴 노래 애니메이션을 위한 충분한 표정과 감정적 가이드를 제공할 수 있다고 주장한다. 구체적으로, 우리는 학습된 비디오 확산 모델 $`\mathcal{D}`$을 사용해 입력 오디오와 일치하는 2D 노래 동영상 $`\mathbf{V}_{0:T-1}=\{\mathbf{v}_i\in \mathbb{R}^{h \times w \times 3}\}_{i=0}^{T-1}`$ 을 합성한다. 노래 공연의 스타일을 제어하기 위해 참조 초상화 이미지 $`\mathbf{I}_{ref}`$와 텍스트 프롬프트 $`\mathbf{p}_{ref}`$를 조건으로 사용:

MATH
\begin{equation}
    \mathbf{V}_{0:T-1}=\mathcal{D}(\mathbf{A}_{0:T-1}, \mathbf{I}_{ref}, \mathbf{p}_{ref})
    \label{eq:diffusion}.
\end{equation}
클릭하여 더 보기

내장된 광범위한 인간 사전 지식은 합성된 노래 동영상이 풍부한 감정적 신뢰도와 일관된 표현을 보여주도록 한다.

표정 재목표화

합성된 초상 애니메이션 동영상을 주도 원천으로 활용하여 우리는 표현적인 얼굴 동역학을 로봇의 물리적 행동 공간에 재목표화한다.

아바타 표정 추출. ARKit 표준에 부합하는 52차원 블렌드셰이프 계수 벡터를 표정의 매개변수화 표현으로 채택한다. 이 계수는 특정 근육 작용의 강도, 예를 들어 jawOpenmouthStretch와 같은 것들을 양화한다. 이전 방법들이 원시 2D 얼굴 랜드마크에 의존하는 반면, 블렌드셰이프는 정체성에 무관하고 기존 애니메이션 파이프라인과 호환성이 높은 의미있는 특징 공간을 제공한다. 구체적으로, 우리는 MediaPipe $`\mathcal{M}`$ 을 사용해 합성 동영상에서 프레임별 블렌드셰이프 계수 $`\mathbf{B}_{0:T-1}=\{\mathbf{b}_i\in \mathbb{R}^{52}\}_{i=0}^{T-1}`$ 을 추출한다:

MATH
\begin{equation}
    % Insert BS extraction formula here: e.g., \beta_t = \mathcal{E}(I_t)
    \mathbf{B}_{0:T-1} = \mathcal{M}(\mathbf{V}_{0:T-1}).
    \label{eq:bs_extraction}
\end{equation}
클릭하여 더 보기

추출된 표현 벡터를 가우시안 스무딩을 통해 후처리하여 시간적 떨림이 로봇 동작의 간헐적인 움직임으로 이어지는 것을 완화한다. 이를 통해 부드러운 동역학을 보장하면서 중요한 표현 세부 사항을 유지할 수 있다.

세미안틱 기반 아바타에서 로봇 표정 전송. 로봇 얼굴을 구동하는 핵심 도전 과제는 시각적 표현 특징을 로봇 동작 공간으로 매핑하는 것이다. 이전 데이터 주도 접근법의 일반화 제한성을 극복하기 위해 짝지어진 데이터셋에서 블랙박스 매핑을 학습하지 않는다. 대신, 우리는 세미안틱 기반 분할 함수 설계를 제안하며 이를 통해 ARKit 표준에 부합하는 의미적 표현의 강도 스칼라 $`\beta_{j} \in \mathbf{b}`$를 모터 제어 값으로 매핑한다.

MATH
\begin{equation}
    \Delta{\mathbf{m}}_j = \Psi_j(\beta_j) = \mathbf{w}_{j,k} \cdot \beta_j + \mathbf{c}_{j,k}, \quad \text{for } \beta_j \in [\tau_{j,k}, \tau_{j,k+1}),
    \label{eq:mapping_def}
\end{equation}
클릭하여 더 보기

여기서 $`\Delta\mathbf{m}_j \in \mathbb{R}^{d}`$는 로봇의 $`d`$ 개 동작기에 기여하는 제어 값이다. 함수 $`\Psi_j`$는 한 세트의 $`K`$ 구간으로 정의되며, $`\mathbf{w}_{j,k}`$ 및 $`\mathbf{c}_{j,k}`$는 임계값 $`[\tau_{j,k}, \tau_{j,k+1})`$로 경계를 이루는 $`k`$ 번째 선형 구간의 기울기와 절편 벡터를 나타낸다. 우리는 각 의미적 표현에 대해 이러한 분할 함수를 수동으로 설계하며, 보통 고도로 비선형 표현 기저는 표현력을 보장하기 위해 더 밀집된 부분을 필요로 한다.

로봇의 DoF가 블렌드셰이프보다 훨씬 희박한 경우 일부 의미적 표현 (예: cheekPuff)은 직접적인 물리적 대응체가 없어 $`\Psi_j(\beta_j)=0`$으로 제외된다. 또한, 비대칭 표정 (예: noseSneerLeft/Right)이 단일 동작기에 공유되는 기계적 제약을 해결하기 위해 이를 하나의 대칭 매핑으로 통합하고 그 평균 값을 입력 밀도로 사용한다. 설계 세부 사항은 보충 자료를 참조하라.

마지막으로, 모든 유효한 매핑에서 얻어진 제어 값을 합성하여 최종 제어 값 $`\mathbf{m}`$을 얻는다:

MATH
\begin{equation}
    \mathbf{m} = \mathbf{m}_{rest} + \sum\nolimits_{{\beta}_j \in \mathbf{b}} \Psi_j({\beta}_j),
    \label{eq:final_motor}
\end{equation}
클릭하여 더 보기

여기서 $`\mathbf{m}_{rest}`$는 초기 휴식 자세를 나타낸다. 또한, MediaPipe를 통해 추출된 3-DoF 자세를 로봇의 네ck 모터에 선형적으로 매핑하여 머리 움직임을 제어한다.

실험

구현 세부 사항

로봇 얼굴 플랫폼. 우리는 Hobbs 로봇 플랫폼에서 우리의 방법을 테스트하며, 이는 32 개의 자유도를 특징으로 하며 29 개의 모터가 표정 동작에 사용되고 3 개는 머리/목 움직임에 사용된다. 모터들은 근골격 구조를 통해 실리콘 피부와 연결되어 있다. 초상 애니메이션은 Hallo3을 사용해 원격 서버에서 합성하며 이 서버는 단일 NVIDIA A800 GPU가 장착되어 있으며, 표정 전송 모듈은 로봇 내장 RK3588 프로세서에서 로컬로 실행된다.

데이터 준비. 우리는 40 개의 노래 오디오 클립으로 구성된 테스트 세트를 수집했으며 각 클립의 길이는 3~4초이다. 이 데이터셋은 다양한 언어와 감정 스타일을 포괄하여 음운적 커버리지와 감정 표현의 다양성을 보장한다.

기준선. 우리는 세 가지 데이터 주도 기준선과 우리의 방법을 비교한다: (1) 무작위 샘플링 (RT), 학습 세트에서 제어 값을 무작위로 샘플링; (2) 최접근 이웃 검색(NNR), 학습 세트에서 블렌드셰이프 기반으로 가장 가까운 샘플을 찾음; 및 (3) Zhu et al.이 제안한 직접 회귀 접근법, 블렌드셰이프 계수를 직접 모터 제어 값에 매핑한다. 우리는 EmoTalk을 사용해 블렌드셰이프를 생성한다. 모든 기준선은 수집된 데이터셋에 대해 재구현하고 훈련하며 이는 10K 무작위 샘플링 쌍으로 구성된다.

양적 비교

우리는 널리 사용되는 입동작 동기화 오류 거리 (LSE-D)와 입동작 동기화 신뢰도(LSE-C)를 이용해 노래 오디오와 로봇 공연 간의 동기화를 측정한다. LSE-D 값이 낮을수록 입과 오디오 사이의 일관성이 높다는 것을 나타내며, LSE-C가 높을수록 오디오와 공연 사이의 정합성이 좋음을 반영한다. 또한 우리는 감정의 폭을 측정하기 위해 Valence-Arousal (VA) 공간에 기반한 Emotion Dynamic Range (EDR) 지표를 제안한다. 구체적으로, 우리는 학습된 감정 인식 모델 $`\Phi(\cdot)`$을 사용해 프레임 단위의 감정을 추출한다.


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



Figure 8



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키