Computer Science / Sound

'Computer Science / Sound' 카테고리의 모든 글

총 10개의 글
시간순 정렬
No Image

인디언 에모스피치 명령 데이터셋 환경에서의 감정 기반 음성 인식을 위한 데이터셋

말하기 감정 분석은 여러 응용 사례를 가능하게 하는 중요한 작업입니다. 말하는 발화 내의 비언어적 소리도 말하기 감정 분석에 핵심적인 역할을 합니다. 스마트폰의 광범위한 사용으로, 마이크로 녹음된 명령어를 이용하여 기기 자체에서 머신 러닝 모델을 활용해 감정 이해를 분석하는 것이 가능하게 되었습니다. 비언어적 정보는 주변 환경 소리, 현재 상황 및 수행 중인 활동 등을 설명합니다. 이 연구에서는 발화 내의 언어적(명령어)과 비언어적 소리(배경 잡음)를 모두 고려하여 실제 시나리오에서 감정 분석을 수행했습니다. 이를 위해 인도 EmoSpeech 명령어 데이터셋 이라는 원주민 데이터셋을 만들었습니다. 이 데이터셋은 다양한 감정과 배경 소리를 포함하며, 음성 분석의 새로운 도전 과제를 탐색하기 위한 것입니다. 우리는 여러 기준 모델들과 성능 지표에 따라 광범위하게 비교했습니다. 그리고 명령어 데이터셋의 하위 집합에서 키워드 감지의 최상위 점수에서 3.3%의 상당한 평균 증가를 달성했다는 것을 보여주었습니다.

paper AI 요약
UltraEval-오디오  오디오 기초 모델의 종합적인 평가를 위한 통일된 프레임워크

UltraEval-오디오 오디오 기초 모델의 종합적인 평가를 위한 통일된 프레임워크

오디오 기반 모델의 폭발적인 발전과 함께, 오디오 모델을 객관적이고 체계적으로 평가하기 위한 통합 평가 프레임워크인 **UltraEval-Audio**를 제안합니다. 이 프레임워크는 데이터 로딩부터 추론 파라미터 조정까지 다양한 과정을 분리하여 연구자들이 실험의 재현성을 높이고, 빠르게 적응하고 확장할 수 있도록 설계되었습니다.

paper AI 요약
드럼 반주 생성을 위한 세밀한 리듬 제어[DARC

드럼 반주 생성을 위한 세밀한 리듬 제어[DARC

최근에는 높은 품질의 음악적으로 일관된 보조 악기 생성이 이루어졌지만, 시간 변동 특성에 대한 세밀한 제어가 부족하다. 이 연구에서는 사용자가 리듬 프롬프트를 기록하면, 그것이 드럼으로 렌더링되는 Tap2Drum 작업을 집중적으로 다룬다. 우리의 모델 DARC는 음악적 맥락과 리듬 프롬프트를 입력으로 받아, 음악적 일관성과 리듬 프롬프트에 대한 충실도를 평가한다.

paper AI 요약
오디오 인코더 공격으로 언어 모델 무너지기  보편적 타겟팅 음성 잠재공간 공격

오디오 인코더 공격으로 언어 모델 무너지기 보편적 타겟팅 음성 잠재공간 공격

이 연구는 다양한 데이터셋과 모델 아키텍처를 대상으로 깊은 신경망의 성능에 미치는 다른 정규화 기법들의 영향을 조사한다. 우리는 제어된 조건 하에서 L1, L2, 그리고 드롭아웃 방법을 비교한다. 우리의 연구 결과는 L2가 대부분의 작업에서 더 효과적임을 시사하지만, L1은 희소한 설정에서 유리하다는 것을 보여준다.

paper AI 요약
오디오 환영 정렬 AHA 프레임워크로 잘못된 정보 방지

오디오 환영 정렬 AHA 프레임워크로 잘못된 정보 방지

이 연구는 다양한 머신러닝 기법이 금융 시장 예측의 정확도에 미치는 영향을 탐구합니다. 선형 회귀와 같은 전통적인 방법과 랜덤 포레스트, 서포트 벡터 머신(SVM), 신경망 등의 현대적 접근 방식을 비교했습니다. 결과적으로 신경망은 금융 데이터의 복잡한 패턴 처리에서 다른 모델보다 우수함이 나타났습니다.

paper AI 요약
음성과 영상 동기화  제로샷 클론링으로 새로운 시대

음성과 영상 동기화 제로샷 클론링으로 새로운 시대

이 논문에서는 MM-Sonate라는 다중 모달 조절 가능 프레임워크를 제안합니다. 이 프레임워크는 음성-비디오 동시 생성과 제로샷 음색 클론 기능을 지원하며, Multi-Modal Diffusion Transformer (MM-DiT) 아키텍처와 플로우 매칭 기법을 기반으로 합니다. MM-Sonate는 텍스트 설명만을 사용하는 이전 접근 방식 대신 통합된 명령-음절 입력 형식을 도입하여 시각적 장면 생성과 정확한 입 모양 동기화를 위한 음성 정보를 활용할 수 있습니다. 또한, 새로운 추론 전략인 자연스럽게 수집된 노이즈를 사용하는 부정 조건부 방법을 제안하여 음성의 안정성을 크게 향상시킵니다. ###

paper AI 요약

< 분야별 논문 현황 (Total: 566) >

Quantum Physics
5

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키