유튜브 영상으로 자동 음성 데이터 구축 KT Speech Crawler

본 연구는 자동 음성 인식(ASR) 시스템 학습에 필요한 대규모 라벨링 음성 데이터를 비용 효율적으로 확보하기 위해, 유튜브에 존재하는 자동 자막을 활용한 데이터 수집 파이프라인인 KT‑Speech‑Crawler를 제안한다. 기존의 GMM‑HMM 기반 하이브리드 시스템은 정확한 음성‑텍스트 정렬이 필요해 라벨링 비용이 크게 소요되었으며, 최근의 CTC 기반 엔드‑투‑엔드 모델은 정렬 없이도 학습이 가능하지만 여전히 대량의 고품질 전사 데이터가 필요하다. 이를 해결하고자 저자들은 다음과 같은 절차를 설계하였다. 1. **후보 영상 수집**: 유튜브 Search API를 이용해 ‘the’, ‘and’, ‘have’ 등 가장 흔히 사용되는 100개의 영어 단어를 검색어로 설정하고, 각 키워드당 최신 600개의 영상을 다운로드한다. 이 과정은 채널 단위로 메모리를 유지해 이미 품질 검증을 통과한 채널의 다른 영상도 지속적으로 탐색한다. 2. **다중 필터링**: - 자막 간 겹침, 비ASCII 문자, URL, 음악 표시 등 명시적인 잡음 제거. - 화자 이름, 웃음 표시 등 비음성 텍스트를 삭제하고, 1~100 사이의 숫자는 발음이 명확하도록 문자로 변환. - 알파벳·공백·아포스트로피 외 문자 포함 시 폐기. - 구간 길이가 1초 미만 또는 10초 초과인 경우 제외. - 무작위 3구절에 대해 구글 ASR API와 레벤슈타인 유사도 70% 미만이면 전체 영상 폐기. 3. **후처리 및 정렬 보정**: 인접 자막이 1초 이내이면 병합해 최대 10초까지 확장하고, Kaldi 기반 강제 정렬을 수행한다. 첫·마지막 단어가 정렬되지 않을 경우 경계를 최대 500 ms까지 확장해 매핑을 시도한다. 4. **품질 평가**: 무작위 추출한 600개 샘플에 대해 인간 검증을 수행한 결과 평균 전사 오류율은 3.5%에 불과했으며, 대부분은 구간 시작·끝 부분의 누락이나 추가였다. 5. **실험 설정**: DeepSpeech‑2 구조를 변형한 61 M 파라미터 모델을 사용해 WSJ(81 h)와 TED‑LIUM v2(200 h) 데이터에 각각 200~300 h의 크롤링 데이터를 추가 학습하였다. 동일한 하이퍼파라미터와 학습 스케줄을 유지했으며, 언어 모델 없이 그리디 디코딩만 적용하였다. 6. **성능 결과**: - WSJ 테스트 셋에서 원본 모델 WER 34.2% → 크롤링 데이터 추가 후 15.8% (약 40% 절감). - TED‑LIUM에서는 32.6% → 28.1%로 개선. - 크롤링 데이터만 사용했을 경우에도 WSJ는 31.5%(CER 8.3%), TED는 36.6%(CER 10.6%)의 성능을 보였으며, 이는 도메인 차이에 따른 한계이지만 여전히 실용적인 수준이다. 7. **시연 및 공개**: 웹 기반 데모를 통해 수집된 샘플을 시각화하고, 사용자가 직접 전사를 검증·수정할 수 있는 인터페이스를 제공한다. 코드와 Dockerfile을 GitHub에 공개하여 연구자들이 손쉽게 데이터 파이프라인을 재현·확장할 수 있도록 지원한다. 8. **향후 과제**: 다국어 지원, TTS 합성 음성 식별, 도메인‑특화 필터링(예: 금융, 의료), 다중 화자·저신호‑대신 잡음 비율 높은 샘플 자동 검출을 위한 신경망 모듈 도입 등을 제시한다. 결론적으로, KT‑Speech‑Crawler는 저비용·고효율로 다양한 환경·억양·배경 잡음을 포함한 대규모 음성‑텍스트 데이터셋을 자동으로 구축할 수 있음을 입증했으며, 공개된 도구와 데이터는 연구 커뮤니티가 대규모 ASR 모델을 개발하고 새로운 음성 이해 응용을 탐색하는 데 큰 도움이 될 것으로 기대된다.

유튜브 영상으로 자동 음성 데이터 구축 KT Speech Crawler

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기