워터스틴 거리 기반 무감독 도메인 적응으로 음향 장면 분류 성능 대폭 향상

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 녹음 장치가 달라진 새로운 음향 채널에 직면했을 때 성능이 급격히 떨어지는 음향 장면 분류(ASC) 문제를 다룬다. 기존의 HΔH‑거리 기반 적대적 도메인 적응 방법이 겪는 기울기 소실과 학습 속도 저하를 극복하기 위해 Wasserstein GAN(WGAN) 프레임워크를 도입하고, 소스 도메인 성능 유지용 교차 엔트로피 손실을 추가하였다. TUT Acoustic Scenes 데이터셋에서 기존 최첨단 32 % 정확도를 45 %로 끌어올리는 성과를 보였다.

상세 분석

음향 장면 분류는 입력 음성 신호 x 를 사전 정의된 클래스 y 중 하나로 매핑하는 작업이며, 최근 딥러닝 기반 피처 추출기 M 과 라벨 분류기 h 가 주류를 이루고 있다. 그러나 훈련에 사용된 소스 도메인(고품질 녹음 장치)과 실제 서비스 환경에서 수집되는 타깃 도메인(소비자용 장치) 사이에 캡처 편향이 존재하면, 피처 분포 Z_S 와 Z_T 가 달라져 분류 정확도가 크게 감소한다. 이 현상은 도메인 적응(DA)의 핵심 과제이며, 이론적으로는 HΔH‑거리 d_{HΔH}(Z_S,Z_T) 가 두 분포 간 차이를 정량화한다. 기존 연구

워터스틴 거리 기반 무감독 도메인 적응으로 음향 장면 분류 성능 대폭 향상

초록

상세 분석

댓글 및 학술 토론

의견 남기기