Sound

'Sound' 카테고리의 모든 글

총 3개의 글

시간순 정렬

UltraEval-오디오 오디오 기초 모델의 종합적인 평가를 위한 통일된 프레임워크

오디오 기반 모델의 폭발적인 발전과 함께, 오디오 모델을 객관적이고 체계적으로 평가하기 위한 통합 평가 프레임워크인 **UltraEval-Audio**를 제안합니다. 이 프레임워크는 데이터 로딩부터 추론 파라미터 조정까지 다양한 과정을 분리하여 연구자들이 실험의 재현성을 높이고, 빠르게 적응하고 확장할 수 있도록 설계되었습니다.

2026년 02월 04일

paper AI 요약

드럼 반주 생성을 위한 세밀한 리듬 제어[DARC

최근에는 높은 품질의 음악적으로 일관된 보조 악기 생성이 이루어졌지만, 시간 변동 특성에 대한 세밀한 제어가 부족하다. 이 연구에서는 사용자가 리듬 프롬프트를 기록하면, 그것이 드럼으로 렌더링되는 Tap2Drum 작업을 집중적으로 다룬다. 우리의 모델 DARC는 음악적 맥락과 리듬 프롬프트를 입력으로 받아, 음악적 일관성과 리듬 프롬프트에 대한 충실도를 평가한다.

2026년 02월 04일

paper AI 요약

음성과 영상 동기화 제로샷 클론링으로 새로운 시대

이 논문에서는 MM-Sonate라는 다중 모달 조절 가능 프레임워크를 제안합니다. 이 프레임워크는 음성-비디오 동시 생성과 제로샷 음색 클론 기능을 지원하며, Multi-Modal Diffusion Transformer (MM-DiT) 아키텍처와 플로우 매칭 기법을 기반으로 합니다. MM-Sonate는 텍스트 설명만을 사용하는 이전 접근 방식 대신 통합된 명령-음절 입력 형식을 도입하여 시각적 장면 생성과 정확한 입 모양 동기화를 위한 음성 정보를 활용할 수 있습니다. 또한, 새로운 추론 전략인 자연스럽게 수집된 노이즈를 사용하는 부정 조건부 방법을 제안하여 음성의 안정성을 크게 향상시킵니다. ###

2026년 02월 04일

paper AI 요약

< 카테고리 현황 (Total: 301) >

Machine Learning (70) Artificial Intelligence (52) Computer Vision (40) NLP (36) Information Retrieval (13) Cryptography and Security (12) Robotics (11) Software Engineering (9) Image and Video Processing (7) Distributed Computing (5) Multiagent Systems (4) Systems and Control (4) Networking and Internet (3) Neural and Evolutionary Computing (3) Social and Information Networks Sound (3) Audio and Speech Processing (2) Computers and Society (2) HCI (2) Information Theory (2) Logic in Computer Science (2) Programming Languages (2) Computational Engineering (1) Computational Geometry (1) Digital Libraries (1) Game Theory (1) General Economics (1) Geophysics (1) History and Philosophy of Physics (1) Machine Learning (Stat) (1) Mesoscale and Nanoscale Physics (1) Neurons and Cognition (1) Operating Systems (1) Quantitative Methods (1) Signal Processing (1) Theoretical Economics (1)

Sound

UltraEval-오디오 오디오 기초 모델의 종합적인 평가를 위한 통일된 프레임워크

드럼 반주 생성을 위한 세밀한 리듬 제어[DARC

음성과 영상 동기화 제로샷 클론링으로 새로운 시대

< 카테고리 현황 (Total: 301) >

목차

목차

UltraEval-오디오 오디오 기초 모델의 종합적인 평가를 위한 통일된 프레임워크

드럼 반주 생성을 위한 세밀한 리듬 제어[DARC

음성과 영상 동기화 제로샷 클론링으로 새로운 시대

< 카테고리 현황 (Total: 301) >

검색 시작

검색 결과 없음