CHiME‑5 도전: 실내 다중 마이크 대화 음성 인식 데이터셋 및 베이스라인

CHiME‑5 챌린지는 실제 가정 환경에서 4인 저녁 파티를 녹음한 대규모 다중 마이크 대화 음성 데이터셋을 공개하고, 단일 배열 및 다중 배열 두 트랙으로 나누어 음성 향상·인식 기술을 평가한다. 베이스라인으로는 배열 동기화, 가중 지연‑합 빔포밍, Kaldi 기반 GMM/HMM 및 LF‑MMI TDNN, 그리고 ESPnet 기반 엔드‑투‑엔드 모델을 제공한다. 실험 결과는 원거리 마이크와 바이노럴 마이크 간에 약 30% 이상의 WER 차이가…

저자: Jon Barker, Shinji Watanabe (CLSP), Emmanuel Vincent (MULTISPEECH)

CHiME‑5 챌린지는 기존 CHiME 시리즈가 목표로 했던 ‘현실적인 잡음·리버버레이션 환경에서의 강인한 자동 음성 인식(ASR)’을 한 단계 더 확장한다. 데이터 수집은 20가구의 실제 가정에서 4인 저녁 파티를 진행하도록 설계되었으며, 각 파티는 최소 2시간, 주방·식당·거실이라는 세 개의 구역으로 구분돼 최소 30분씩 진행되었다. 참가자들은 친밀한 관계이므로 자연스러운 대화 흐름과 발화 겹침이 발생했으며, 배경 TV·음악은 저작권 문제를 피하기 위해 차단되었다. 녹음 장비는 6대의 Microsoft Kinect 어레이와 4쌍의 Soundman OKM II 바이노럴 마이크로 구성되었다. Kinect는 4채널 선형 마이크와 카메라를 탑재한 장치로, 각 어레이는 최소 두 대가 동일 구역을 커버하도록 배치되었다. 바이노럴 마이크는 각 참가자가 착용해 발화자의 직접적인 음성을 캡처했으며, 이는 ‘oracle’ 전사와 정밀한 타임스탬프를 제공한다. 모든 장치는 별도 노트북에 저장되었으며, 사후에 동기화 톤을 이용해 약 10초 간격으로 교차 상관을 수행해 장치 간 지연을 보정하였다. 전사는 각 발화에 대해 시작·종료 시점과 단어 시퀀스를 바이노럴 녹음(레퍼런스) 기준으로 수동 라벨링했으며, 다른 장치에 대해서는 보정된 지연을 적용해 자동으로 타임스탬프를 생성했다. 전사 파일에는

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기