Computer Science / Multimedia

'Computer Science / Multimedia' 카테고리의 모든 글

총 4개의 글
시간순 정렬
No Image

인디언 에모스피치 명령 데이터셋 환경에서의 감정 기반 음성 인식을 위한 데이터셋

말하기 감정 분석은 여러 응용 사례를 가능하게 하는 중요한 작업입니다. 말하는 발화 내의 비언어적 소리도 말하기 감정 분석에 핵심적인 역할을 합니다. 스마트폰의 광범위한 사용으로, 마이크로 녹음된 명령어를 이용하여 기기 자체에서 머신 러닝 모델을 활용해 감정 이해를 분석하는 것이 가능하게 되었습니다. 비언어적 정보는 주변 환경 소리, 현재 상황 및 수행 중인 활동 등을 설명합니다. 이 연구에서는 발화 내의 언어적(명령어)과 비언어적 소리(배경 잡음)를 모두 고려하여 실제 시나리오에서 감정 분석을 수행했습니다. 이를 위해 인도 EmoSpeech 명령어 데이터셋 이라는 원주민 데이터셋을 만들었습니다. 이 데이터셋은 다양한 감정과 배경 소리를 포함하며, 음성 분석의 새로운 도전 과제를 탐색하기 위한 것입니다. 우리는 여러 기준 모델들과 성능 지표에 따라 광범위하게 비교했습니다. 그리고 명령어 데이터셋의 하위 집합에서 키워드 감지의 최상위 점수에서 3.3%의 상당한 평균 증가를 달성했다는 것을 보여주었습니다.

paper AI 요약
디지털 이미지의 스테가놀로지 분석을 위한 채널 가위 작업 지원 딥 리저벌 네트워크  CALPA-NET

디지털 이미지의 스테가놀로지 분석을 위한 채널 가위 작업 지원 딥 리저벌 네트워크 CALPA-NET

최근 몇 년 동안 딥러닝 기반의 스테가나리저의 감지 성능 향상은 보통 구조 확장을 통해 이루어져 왔다. 그러나 지나치게 확장된 구조는 큰 계산 비용, 저장 공간 부담을 초래하고 결국 학습과 배포에 어려움을 가져온다. 본 논문에서는 기존의 거대하고 과도하게 파라미터화된 딥러닝 기반 스테가나리저의 네트워크 구조를 축소하기 위해 CALPA-NET이라는 채널-프루닝을 지원하는 깊은 잔차 네트워크 아키텍처 탐색 방법론을 제안한다. 기존 딥러닝 기반 스테가나리저의 광범위한 역피라미드 구조는 잘 알려진 모델 다양성 지향 철학과 상충될 수 있으며, 따라서 스테가나리즈에 적합하지 않다고 관찰되었다. 그런 다음 데이터 주도 방식으로 모든 관련 컨볼루션 레이어를 자동적으로 축소하기 위해 두 가지 네트워크 프루닝 방법을 결합한 하이브리드 기준을 도입한다. 결과적인 네트워크 아키텍처는 납작한 병목 구조를 보여준다. 우리는 BOSSBase+BOWS2 데이터셋, 더 다양한 ALASKA 데이터셋, 심지어 ImageNet CLS-LOC 데이터셋에서 추출된 대규모 하위 집합에 대한 광범위한 실험을 수행하였다. 실험 결과는 제안된 CALPA-NET으로 생성된 모델 구조가 원래 스테가나리저 모델보다 약 2% 미만의 파라미터와 약 1/3 FLOPs로 비교 가능한 성능을 달성할 수 있음을 보여주었다. 새로운 모델은 더 나은 적응력, 이관 가능성 및 확장성을 갖추고 있다.

paper AI 요약
가상현실에서의 지도와 구체

가상현실에서의 지도와 구체

이 논문은 가상현실(VR)에서 세계 지도를 시각화하는 다양한 방법을 탐색합니다. 다음의 네 가지 시각화를 비교했습니다 (a) 사용자의 관점이 구체 바깥에 있는 3D 외관 구체, (b) VR 평면에 렌더링된 평평한 지도, (c) 사용자의 관점이 구체 안쪽에 있는 3D 내관 구체, (d) 사용자를 중심으로 굴곡을 이루는 구형 부분에 프로젝션 된 굽은 지도. 이 네 가지 시각화 모두에서는, 표준 VR 손잡이 컨트롤러를 통해 지리적 중심을 부드럽게 조정할 수 있으며, 사용자는 헤드셋 트래킹 기능을 활용해 실제 움직임으로 시각화 주변을 이동할 수 있습니다. 거리 비교에서는 외관 구체가 내관 구체와 평평한 지도보다 더 정확했습니다. 면적 비교에서는 외관 및 내관 구체가 평평한 지도와 굽은 지도보다 더 많은 시간이 필요했습니다. 방향 추정에서는 외관 구체가 다른 시각화 방법들보다 더 정확하고 빨랐습니다. 연구 참여자들은 약간의 선호를 보인 외관 구체를 나타냈습니다. 일반적으로 굽은 지도는 평평한 지도에 비해 이점을 가졌으며, 거의 모든 경우에서 내관 구체가 가장 효과적이지 않은 시각화로 발견되었습니다. 전체적으로 우리의 결과는 혼합현실 환경에서 지리적 시각화에 외관 구체의 사용을 지원합니다.

paper AI 요약
QoE 기반 360도 동영상 생중계의 결합된 상행 및 하행 속도 적응 규칙

QoE 기반 360도 동영상 생중계의 결합된 상행 및 하행 속도 적응 규칙

360도 비디오는 몰입감 있는 360도 시청 경험을 제공하며, 많은 분야에서 널리 사용되고 있습니다. 360도 비디오 라이브 스트리밍 시스템은 캡처, 압축, 업링크(카메라에서 비디오 서버로), 다운링크(비디오 서버에서 사용자로) 전송을 포함합니다. 그러나 이러한 복잡한 시스템에 대해 공동으로 연구한 사례는 거의 없으며 특히 제한된 대역폭 조건 하의 360도 비디오 스트리밍을 위한 업링크와 다운링크를 연결한 데이터 속도 조절은 더욱 연구가 부족합니다. 본 논문에서는 사용자 경험(QoE)에 기반한 360도 비디오 라이브 스트리밍 시스템을 제안하며, 이는 비디오 서버가 업링크와 다운링크 대역폭과 각 사용자의 실시간 필드-오브-뷰(FOV) 정보를 기반으로 속도 조절을 수행합니다. 이를 비선형 정수 계획 문제로 수식화하고 Karush-Kuhn-Tucker(KKT) 조건과 분지 및 경계 방법(branch and bound method)을 결합한 알고리즘을 제안하여 해결했습니다. 수치 결과는 제안된 최적화 모델이 다른 기준 방식에 비해 사용자의 QoE를 크게 향상시킬 수 있음을 보여줍니다.

paper AI 요약

< 분야별 논문 현황 (Total: 566) >

Quantum Physics
5

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키