가정 환경에서 원거리 음성 인식을 위한 DIRHA‑영어 코퍼스 소개

본 논문은 EC DIRHA 프로젝트에서 구축한 다중 마이크로폰 기반 가정용 영어 음성 데이터베이스인 DIRHA‑English 코퍼스를 소개한다. 실제 녹음과 시뮬레이션을 결합해 12명 미국·영국 원어민의 명령문, 키워드, 신문 기사, 대화 등을 1분 길이의 시퀀스로 구성했으며, 62개 채널의 마이크 배열과 방마다 다른 음향 특성을 제공한다. 또한 Kaldi 기반 DNN, 트라이그램 HMM 등 여러 ASR 모델을 적용한 초기 베이스라인 결과를 제…

저자: Mirco Ravanelli, Maurizio Omologo

가정 환경에서 원거리 음성 인식을 위한 DIRHA‑영어 코퍼스 소개
본 논문은 EC DIRHA 프로젝트의 일환으로 구축된 다중 마이크로폰 기반 가정용 영어 음성 데이터베이스인 DIRHA‑English 코퍼스를 상세히 소개한다. 연구 배경으로는 현재 상용 ASR 시스템이 대부분 근접 마이크에 의존하고 있어, 사용자가 자유롭게 방 안 어디서든 말할 수 있는 원거리 음성 인식(DSR)의 상용화가 제한되고 있다는 점을 들었다. 가정 환경은 비정형적인 배경 잡음과 강한 리버버레이션을 동반하기 때문에, 이러한 환경을 정확히 모델링한 데이터가 필수적이다. DIRHA‑English 코퍼스는 실제 녹음과 시뮬레이션 두 부분으로 구성된다. 실제 녹음은 이탈리아 트렌토에 위치한 ITEA 아파트(5개 방)에서 수행되었으며, 방마다 다양한 마이크 배열이 설치되었다. 거실과 주방에는 12채널의 마이크 쌍·트리플렛·6채널 천장 배열·15채널 하모닉 배열 등 총 62개의 채널이 배치되어, 공간적 다양성을 극대화하였다. 마이크는 고품질 옴니디렉셔널 마이크(Shure MX391/O)와 디지털 MEMS 마이크가 혼합돼 있어, 서로 다른 주파수 응답과 신호‑대‑잡음 비를 제공한다. 각 마이크는 48 kHz, 24 bit로 동기화된 A/D 보드에 연결돼 정확한 다채널 기록이 가능했다. 시뮬레이션 데이터는 청정 음성(96 kHz, 24 bit)과 실제 측정된 10 000여 개의 임펄스 응답(IR), 그리고 방마다 다른 배경 잡음(가전 소음, 대화 소음 등)을 결합해 생성되었다. IR은 ESS(Exponential Sine Sweep) 신호를 사용해 측정했으며, 이는 방의 반향 특성을 정밀히 포착한다. 시뮬레이션 과정에서 각 1분 길이 시퀀스는 다양한 화자 위치·방향·잡음 레벨을 포함하도록 설계돼, 실제 환경과 동일한 복합 음향 조건을 재현한다. 음성 자료는 12명의 미국·영국 원어민(각 6명 남·여)으로 구성된다. 각 화자는 15개의 읽기 명령문, 15개의 자발적 명령문, 13개의 키워드, 48개의 phonetically‑rich 문장(Harvard 코퍼스), WSJ‑5k·20k 문장 각각 66~67개, 약 10분 분량의 자유 대화를 녹음했다. 전체 청정 음성은 약 11시간이며, 모든 발화는 전문가가 수동으로 전사·시간 정렬했다. 코퍼스는 개발·시험 세트로 나뉘며, 미국·영국 화자 각각 6명을 개발, 6명을 시험에 할당했다. 이는 WSJ 원본 과제와 동일한 스피커 분할 방식을 유지한다. 또한, 각 1분 시퀀스는 oracle VAD를 적용해 정확한 발화 경계를 확보했으며, 실험 편의를 위해 48 kHz에서 16 kHz로 다운샘플링했다. 베이스라인 실험은 Kaldi 툴킷을 기반으로 수행되었다. 학습 데이터는 TIMIT 코퍼스를 사용했으며, 여기서 세 가지 음향 모델을 구축했다. 첫 번째는 mono(단일 HMM, 48개의 context‑independent phones, 1000개의 Gaussian), 두 번째는 tri(트라이그램, SAT 적용, 2500개의 tied state, 15 k Gaussian), 세 번째는 DNN(6층, 1024 뉴런, 11‑frame 컨텍스트, 초기 학습률 0.008)이다. 테스트는 실제·시뮬레이션 phonetically‑rich 문장에 대해 수행했으며, 언어 모델은 사용하지 않고 순수 phone‑loop(0‑gram) 방식을 채택했다. 이는 언어 모델에 의한 비선형 효과를 배제하고 순수 음향 정보만으로 성능을 평가하기 위함이다. 실험 결과, DNN 모델이 가장 낮은 전화 오류율을 기록했지만, close‑talk 시스템 대비 여전히 큰 격차가 존재함을 확인했다. 이는 현재 DNN 기반 백엔드만으로는 가정 환경의 복합적인 리버버레이션·비정상 잡음 문제를 충분히 해결하지 못한다는 점을 시사한다. 따라서 마이크 배열 설계, 빔포밍, 다채널 잡음 억제, 스피커 로컬라이제이션 등 전처리 기술과 결합한 연구가 필요하다. 본 논문은 또한 향후 코퍼스와 Kaldi 레시피를 공개할 계획임을 밝히며, 전 세계 연구자들이 동일한 데이터와 베이스라인을 활용해 다양한 DSR 과제(음성 활동 검출, 스피커 식별, 다중 대화 관리 등)를 비교·재현할 수 있는 기반을 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기