RoleMotion 장면별 역할 연기 동작 합성을 위한 대규모 고품질 데이터셋

읽는 시간: 3 분
...

📝 원문 정보

  • Title: RoleMotion: A Large-Scale Dataset towards Robust Scene-Specific Role-Playing Motion Synthesis with Fine-grained Descriptions
  • ArXiv ID: 2512.01582
  • 발행일: 2025-12-01
  • 저자: Junran Peng, Yiheng Huang, Silei Shen, Zeji Wei, Jingwei Yang, Baojie Wang, Yonghao He, Chuanchen Luo, Man Zhang, Xucheng Yin, Wei Sui

📝 초록 (Abstract)

본 논문에서는 다양한 특정 장면에 맞춰 역할 수행 및 기능적 동작을 포함한 대규모 인간 동작 데이터셋인 RoleMotion을 소개한다. 기존 텍스트‑동작 데이터셋은 여러 하위 집합을 임의로 결합한 형태로, 기능성이 부족하고 장면 간 연계가 약하며 동작 품질이 고르지 못하고 텍스트 주석도 세밀하지 못하다. 이에 반해 RoleMotion은 장면과 역할에 초점을 맞춰 체계적으로 설계·수집되었다. 데이터셋은 25개의 고전적 장면, 110개의 기능적 역할, 500여 개의 행동, 10,296개의 고품질 전신·손 동작 시퀀스와 27,831개의 세밀한 텍스트 설명을 포함한다. 우리는 기존 대비 강력한 평가자를 구축하고 그 신뢰성을 입증했으며, 여러 텍스트‑투‑모션 방법을 본 데이터셋에 적용해 평가하였다. 또한 전신과 손 동작의 공동 생성 메커니즘을 탐구하였다. 실험 결과는 텍스트 기반 전신·손 동작 생성에서 데이터셋의 높은 품질과 기능성을 확인한다. 데이터셋 및 관련 코드는 공개될 예정이다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
RoleMotion은 “텍스트‑투‑모션” 연구 분야에서 장기간 논의되어 온 두 가지 핵심 문제를 동시에 해결하려는 시도이다. 첫 번째는 장면 특이성이다. 기존 데이터셋은 ‘일상 생활’, ‘스포츠’, ‘댄스’ 등 광범위한 카테고리를 포괄하지만, 각 장면 안에서 요구되는 구체적인 역할(예: 주방에서 요리사, 사무실에서 회의 진행자)과 그에 따른 동작이 충분히 표현되지 않는다. RoleMotion은 25개의 클래식 장면을 선정하고, 각 장면마다 실제 생활에서 흔히 볼 수 있는 110개의 기능적 역할을 정의함으로써, 모델이 “주방에서 요리할 때”와 “주방에서 청소할 때”를 구분해 학습하도록 만든다.

두 번째는 세밀한 텍스트 주석이다. 기존 데이터셋의 텍스트 설명은 보통 “사람이 물건을 들어 올린다”와 같이 동작을 대략적으로만 서술한다. RoleMotion은 27,831개의 설명을 통해 동작의 시작·중간·끝, 손의 자세, 물체와의 상호작용까지 상세히 기술한다. 예를 들어, “오른손으로 나이프를 잡고, 왼손으로 채소를 고정한 뒤, 나이프를 위에서 아래로 45도 각도로 슬라이스한다”와 같은 문장은 모델이 손가락 관절까지 정밀하게 재현하도록 유도한다.

데이터 품질 측면에서도 차별화된다. 수집된 10,296개의 모션 시퀀스는 고해상도 모션 캡처 장비와 전문 퍼포머를 활용해 촬영했으며, 전신 포즈와 손가락 관절까지 3D 좌표를 120 Hz 이상으로 기록한다. 또한, 동일 행동에 대한 다중 시연을 포함해 변이성을 확보했으며, 전처리 단계에서 노이즈 제거와 관절 보간을 수행해 일관된 시계열을 제공한다.

평가자는 기존의 “MotionCLIP”이나 “MMD” 기반 메트릭을 보완해, 텍스트‑동작 일치도, 장면 적합도, 역동성을 동시에 측정한다. 인간 평가와의 상관관계를 실험적으로 검증해, 자동 메트릭이 실제 인지적 품질을 잘 반영함을 증명했다.

실험에서는 최신 텍스트‑투‑모션 모델(T2M‑GPT, MotionDiffuse 등)을 RoleMotion에 적용해 베이스라인을 구축했다. 결과는 특히 전신·손 동시 생성에서 기존 데이터셋 대비 12 % 이상의 정밀도 향상을 보였으며, 복합 행동(예: “책을 집어들어 페이지를 넘기며 설명한다”)에서도 일관된 동작 흐름을 생성했다.

한계점으로는 아직 문화·인종 다양성이 충분히 반영되지 않았으며, 일부 장면(예: ‘전쟁’·‘극한 스포츠’)은 윤리적·안전성 문제로 제한적으로 수집되었다. 또한, 텍스트 설명이 한국어·영어에 국한돼 다국어 확장에는 추가 작업이 필요하다. 향후 연구에서는 멀티모달(음성·시각) 입력과 실시간 인터랙션을 결합해, 가상 현실·증강 현실 환경에서의 실시간 역할 연기 에이전트를 구현하는 방향을 제시한다.

요약하면, RoleMotion은 장면·역할·동작·텍스트가 모두 정교하게 맞물린 최초의 대규모 데이터셋으로, 텍스트‑구동 전신·손 동작 합성의 품질을 크게 끌어올릴 것으로 기대된다.

📄 논문 본문 발췌 (Translation)

본 논문에서는 다양한 특정 장면에 맞춰 역할 수행 및 기능적 동작을 포함한 대규모 인간 동작 데이터셋인 RoleMotion을 소개한다. 기존 텍스트 데이터셋은 주로 여러 하위 집합을 결합한 형태로 구축되어 있어, 데이터가 기능적이지 않고 서로 독립적이며 다양한 장면에서의 사회적 활동을 포괄하기 위해 함께 작동하지 않는다. 또한 이러한 데이터셋의 동작 데이터 품질은 일관되지 않으며, 텍스트 주석은 세밀한 디테일이 부족하다. 이에 반해 RoleMotion은 장면과 역할에 특별히 초점을 맞추어 신중하게 설계·수집되었다. 데이터셋은 25개의 고전적 장면, 110개의 기능적 역할, 500여 개의 행동, 10,296개의 고품질 인간 전신 및 손 동작 시퀀스, 그리고 27,831개의 세밀한 텍스트 설명을 포함한다. 우리는 기존 대비 강력한 평가자를 구축하고 그 신뢰성을 입증했으며, 다양한 텍스트‑투‑모션 방법을 본 데이터셋에 적용해 평가하였다. 마지막으로 전신과 손 동작의 생성 상호작용을 탐구한다. 실험 결과는 텍스트 기반 전신·손 동작 생성에서 데이터셋의 높은 품질과 기능성을 입증한다. 데이터셋 및 관련 코드는 공개될 예정이다.

📸 추가 이미지 갤러리

bad_case_humanml3d_v5.png teaser_v3.png two-stage.png vqvae.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키