Sound

'Sound' 카테고리의 모든 글

총 3개의 글
시간순 정렬
UltraEval-오디오  오디오 기초 모델의 종합적인 평가를 위한 통일된 프레임워크

UltraEval-오디오 오디오 기초 모델의 종합적인 평가를 위한 통일된 프레임워크

오디오 기반 모델의 폭발적인 발전과 함께, 오디오 모델을 객관적이고 체계적으로 평가하기 위한 통합 평가 프레임워크인 **UltraEval-Audio**를 제안합니다. 이 프레임워크는 데이터 로딩부터 추론 파라미터 조정까지 다양한 과정을 분리하여 연구자들이 실험의 재현성을 높이고, 빠르게 적응하고 확장할 수 있도록 설계되었습니다.

paper AI 요약
드럼 반주 생성을 위한 세밀한 리듬 제어[DARC

드럼 반주 생성을 위한 세밀한 리듬 제어[DARC

최근에는 높은 품질의 음악적으로 일관된 보조 악기 생성이 이루어졌지만, 시간 변동 특성에 대한 세밀한 제어가 부족하다. 이 연구에서는 사용자가 리듬 프롬프트를 기록하면, 그것이 드럼으로 렌더링되는 Tap2Drum 작업을 집중적으로 다룬다. 우리의 모델 DARC는 음악적 맥락과 리듬 프롬프트를 입력으로 받아, 음악적 일관성과 리듬 프롬프트에 대한 충실도를 평가한다.

paper AI 요약
음성과 영상 동기화  제로샷 클론링으로 새로운 시대

음성과 영상 동기화 제로샷 클론링으로 새로운 시대

이 논문에서는 MM-Sonate라는 다중 모달 조절 가능 프레임워크를 제안합니다. 이 프레임워크는 음성-비디오 동시 생성과 제로샷 음색 클론 기능을 지원하며, Multi-Modal Diffusion Transformer (MM-DiT) 아키텍처와 플로우 매칭 기법을 기반으로 합니다. MM-Sonate는 텍스트 설명만을 사용하는 이전 접근 방식 대신 통합된 명령-음절 입력 형식을 도입하여 시각적 장면 생성과 정확한 입 모양 동기화를 위한 음성 정보를 활용할 수 있습니다. 또한, 새로운 추론 전략인 자연스럽게 수집된 노이즈를 사용하는 부정 조건부 방법을 제안하여 음성의 안정성을 크게 향상시킵니다. ###

paper AI 요약

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키