코드스위칭 음성인식을 위한 TTS 데이터 증강 개선

읽는 시간: 8 분
...

📝 원문 정보

- Title: Improving Code-Switching Speech Recognition with TTS Data Augmentation
- ArXiv ID: 2601.00935
- 발행일: 2026-01-02
- 저자: Yue Heng Yeo, Yuchen Hu, Shreyas Gopal, Yizhou Peng, Hexin Liu, Eng Siong Chng

📝 초록

코드 스위칭은 다언어 화자들이 두 가지 이상의 언어를 혼합하여 대화하는 일상적인 관행입니다. 이는 자동 음성 인식(ASR)에서 특히 어려운 문제로, 화자가 언어 간 전환 시intonation, 리듬, 발음 등을 조정하므로 ASR 시스템은 이러한 변화를 실시간으로 추적해야 합니다. 그러나 실제 코드 스위칭 데이터셋의 부재가 모델 성능을 크게 제한합니다. 이 논문에서는 TTS(TTS: Text-to-Speech) 합성 음성을 이용하여 이러한 문제를 해결하는 방법을 제시하고, 이를 통해 ASR 시스템의 성능을 개선할 수 있음을 보여줍니다.

💡 논문 해설

1. **TTS 합성 데이터로 코드 스위칭 ASR 향상** TTS 합성 음성을 사용하면 실제 대화에서 발생하는 빠른 언어 전환과 자연스러운 발음 패턴을 모델링할 수 있습니다. 이는 마치 인공 지능이 새로운 언어를 배우고 다양한 방언에 적응하는 것과 같습니다.
  1. TTS 데이터의 핵심 요소
    성공적인 TTS 증강에는 텍스트 다양성, 중등도의 화자 변동성, 그리고 실제와 인공 음성 사이의 균형이 필요합니다. 이를 통해 ASR 모델은 다양한 상황에서 더 나은 성능을 보입니다.

  2. TTS 합성 데이터의 적용
    TTS 합성 데이터를 사용하면 비용 효율적으로 코드 스위칭 대화 데이터셋을 확장할 수 있습니다. 이는 마치 테이프에 녹음된 음성을 다양한 화자로 재생산하는 것과 유사합니다.

📄 논문 발췌 (ArXiv Source)

# 서론

코드 스위칭은 다언어 화자들이 두 가지 이상의 언어를 혼합하여 단일 대화에서 사용하는 일상적인 관행입니다. 이러한 혼합은 문장 내부나 문장 간에 이루어지며, 의사소통 의도에 가장 잘 맞는 단어 또는 문법 구조를 선택합니다. 자동 음성 인식(ASR)에서는 화자가 언어 전환 시intonation, 리듬, 발음을 조정하기 때문에 코드 스위칭이 특히 어려운 문제입니다. 이러한 변화를 실시간으로 추적해야 하는 ASR 시스템의 요구사항은 기존의 발전에도 불구하고 실제 코드 스위칭 데이터셋 부족이라는 큰 장애물로 인해 모델 성능이 크게 제한됩니다.

데이터 부족을 해결하기 위한 일반적인 방법 중 하나는 오디오 스플라이싱입니다. 이 기술은 별도의 단일 언어 녹음을 연결하여 합성된 양자 혼합 발화를 만드는 데 사용되며, 추가 데이터 수집 없이 시스템을 초기 실험에 활용할 수 있습니다. 실제로 오디오 스플라이싱 데이터로 훈련된 ASR 시스템은 오류율을 줄이고 단일 언어 편향을 감소시키는 데 성공하였습니다. 그러나 오디오 세그먼트 연결은 자연스럽지 않은 prosody와 눈에 띄는 음향 불연속성을 야기하며, 이로 인해 모델 과적합이 발생할 수 있습니다. 따라서 초기 실험에는 유용하지만 오디오 스플라이싱 데이터는 실제 대화 데이터 세트와 비교하여 진보된 TTS 생성 합성 음성에 비해 현실감과 언어 커버리지 측면에서 근본적인 제한이 있습니다.

또 다른 방법은 TTS 증강입니다. 초기 TTS 모델은 자연스러운 prosody, 화자 다양성 및 복잡한 언어 전환 패턴을 모델링하는 데 어려움이 있었지만 Chou et al의 최근 연구는 고급 TTS 모델로 생성된 합성 음성이 ASR 성능을 크게 개선할 수 있음을 보여주었습니다. 그들의 자체 정제 프레임워크는 TTS 합성 데이터를 활용하여 오류율을 크게 감소시켰으며, 이는 코드 스위칭 상황에서 ASR 시스템의 미세 조정에 있어 TTS 증강의 실제 효과성을 강조합니다.

성공적인 증강을 위한 주요 요인은 텍스트 다양성, 중등도의 화자 변동성 및 실제와 합성 음성 사이의 적절한 균형입니다. 이러한 다목적 TTS 모델을 활용하여 합성 데이터를 생성하면 비용 효율적인 해결책이 됩니다. 이는 말소집, 스튜디오 녹음 및 수동 코드 스위칭 전사와 같은 고비용 단계를 우회하고, 간단히 크롤링된 텍스트와 자동으로 자체 라벨링된 음성 임베딩을 활용하여 실제 코드 스위치 데이터셋을 확장합니다. 최근 연구는 고급 다언어 TTS 모델로 생성된 합성 음성을 사용해 ASR 시스템이 훈련되는 경우 실세계 데이터에 대한 성능 격차를 크게 줄일 수 있음을 보여주었습니다.

style="width:80.0%" />
엔드-투-엔드 합성 데이터 파이프라인. 정확한 텍스트와 음성이 토큰화되어 Qwen-2 언어 모델, 플로우 매칭 디코더 및 HiFT 보코더를 통해 합성 오디오가 생성되며, 이후 Whisper 미세 조정에 사용됩니다.

관련 연구

최근 ASR의 발전은 TTS 시스템으로 생성된 합성 음성을 이용하여 저자원 다언어 상황에서 데이터 부족 문제를 완화하는 경향이 있습니다. Yang et al은 예를 들어, 다양한 저자원 도메인(예: 억양 있는 말소리, 소수 언어, 전문 용어)에서 다언어 CosyVoice-base TTS 모델을 활용하여 ASR 성능 향상을 실현하였습니다. 그들의 결과는 적절한 텍스트와 중등도의 화자 다양성이 효과적인 TTS 증강에 중요한 역할을 한다는 점을 강조합니다.

그러나 합성 TTS 음성 증강은 다양한 언어적 맥락에서 효과적이지만, 대부분의 이전 연구에서는 대화형 코드 스위칭이라는 고유한 어려움을 간과하였습니다. 빠른 문장 내 언어 전환, 비격식 단어 사용 및 복잡한 prosodic 패턴 등이 포함됩니다. 이전 접근법은 단일 언어 오디오 세그먼트를 연결하여 합성 양자 발화를 형성하는 오디오 스플라이싱 증강으로 이루어져 있으며, 이러한 방법은 제한적인 개선을 이루지만 자연스럽지 않은 prosody와 음향 아티팩트가 발생하여 실제 대화 상황에서의 효과성이 제한됩니다.

이러한 한계를 극복하기 위해 본 연구는 현대 다언어 CosyVoice TTS 모델을 사용하여 SEAME와 같은 대화형 중국어-영어 코드 스위칭 코퍼스에 특별히 미세 조정하는 방법을 탐구합니다. 실제 대화 구조, 즉흥적인 prosodic 변화 및 다양한 화자 특성을 강조함으로써 복잡한 코드 스위치 대화 상황에서 ASR 시스템의 견고성을 크게 향상시키는 것을 목표로 합니다.

우리의 기여

본 논문의 기여는 다음과 같습니다:

  • 다언어 TTS 모델, 특히 코드 스위칭 데이터셋에 미세 조정된 CosyVoice가 실제 대화 prosody, 비격식 단어 사용 및 빠른 문장 내 언어 전환을 효과적으로 포착할 수 있음을 보여줍니다. 또한 TTS 데이터를 통해 음성 기반 모델의 미세 조정이 가능하다는 점도 확인합니다.
  • 성공적인 TTS 증강에 필요한 핵심 요소를 식별하고, 화자 변동성 추가, 데이터 양 추가 및 실제와 인공 음성 사이의 적절한 균형을 제시합니다.
  • SEAME 미세 조정된 CosyVoice 모델을 다른 코드 스위칭 코퍼스(ASCEND)로 성공적으로 전이함으로써 우리의 TTS 증강 파이프라인의 유연성과 효과성을 확인합니다.

방법

CosyVoice TTS

CosyVoice는 다언어, 제로샷 텍스트-투-음성(TTS) 시스템으로, 다언어 ASR 인코더에서 추출한 감독적 의미 토큰을 기반으로 합니다. 그림 1에 요약된 바와 같이, 아키텍처는 네 개의 밀접하게 연결된 블록으로 구성됩니다. (1) 텍스트 인코더: 언어 무관한 BPE 프론트엔드가 입력 문장을 토큰화하고 음성 시간 축에 맞춥니다. (2) 음성 토크나이저: ASR 인코더 기반 벡터 양자화를 통해 이 모듈은 학습 오디오를 낮은 주파수의 의미 코드로 이산화합니다. (3) 대형 언어 모델(LLM): TTS 시스템의 중심부인 트랜스포머 기반 LLM이 텍스트와 음성 토큰의 혼합 스트림을 받아들이고 입력된 토큰에 따라 다음 음성 토큰을 자동회귀식으로 예측합니다. (4) 조건부 플로우 매칭 디코더: 생성된 토큰 시퀀스는 업샘플링되고 플로우 매칭 네트워크를 통해 mel-스펙트로그램으로 변환되며, 가벼운 보코더가 이로부터 웨이브포먼을 렌더링합니다.

CosyVoice는 두 단계에서 훈련됩니다: 음성 토크나이저는 대략 20만 시간의 중국어-영어 오디오에서 학습하고, 전체 TTS 모델은 중화권, 영어, 일본어, 한국어를 포함한 추가 16만7천 시간에서 학습합니다. 이러한 규모와 다양성으로 인해 CosyVoice는 자연스러운, 화자 일관성을 유지하면서 코드 스위치 내부에서도 유창하게 작동하며, 이를 통해 다언어 ASR 시스템을 강화하는 데 실제적인 합성 데이터 소스가 됩니다.

Whisper ASR

Whisper는 OpenAI에서 개발한 대형 트랜스포머 기반 ASR 모델로, 약 68만 시간의 다언어 오디오에서 훈련되었습니다. 그 훈련 데이터는 광범위한 음향 조건과 구어 언어를 포함하므로 다양한 화자, 억양 및 잡음이 있는 녹음을 처리하는 데 능숙합니다.

그러나 코드 스위칭은 여전히 문제입니다. Whisper의 다언어 접근법은 일반적으로 여러 개별 언어를 처리할 수 있지만, 그들이 빠른 교차를 보일 때는 전사 오류 또는 잘못된 언어 식별을 초래할 수 있습니다.

데이터 생성 파이프라인

우리 방법에는 참고 음성을 증강하고 화자 다양성과 데이터 양을 늘리는 세 가지 단계가 포함됩니다.

TTS 미세 조정

우리는 먼저 CosyVoice 2를 SEAME 도메인에 적응시킵니다. 여기서는 언어 모델(QwenLM) 구성 요소만 업데이트하고 음성 토크나이저, 플로우 매칭 디코더 및 보코더는 고정합니다. 미세 조정 중 QwenLM은 SEAME 텍스트 토큰을 주어진 상태에서 자동회귀식으로 음성 토큰 시퀀스를 예측하도록 학습되어 코드 스위치 데이터셋의 빠른 중국어-영어 전환, 비격식 표현 및 대화 prosody를 내부화합니다. 이 단일 모듈 업데이트는 계산적으로 가볍지만 자연스러운 코드 스위치 출력을 생성하는 데 충분하며 원래 CosyVoice 스택의 음향 정확성을 유지합니다.

합성 음성 생성

적응 후 각 SEAME 전사본은 다양한 x-vector 화자 임베딩에서 샘플링하여 여러 번 재합성됩니다. 결과는 원래 텍스트를 반영하지만 타이머, 피치 범위 및 말하는 속도 변화가 다양화된 화자 다양성을 갖춘 합성 코퍼스입니다.

ASR 미세 조정

합성 음성은 100시간의 SEAME 기준 오디오와 혼합되어 Whisper-small 모델을 미세 조정합니다. 세 가지 조건을 비교합니다: (i) 기준만, (ii) 기준 + TTS(제안된 혼합), (iii) TTS만. Whispser 아키텍처와 증강 레시피를 변경하지 않음으로써 추가적인 화자 다각도 합성 데이터가 코드 스위치 인식 정확도에 미치는 영향을 고립시키고 분석할 수 있습니다.

실험 설정

SEAME 코퍼스

SEAME(South-East Asia Mandarin-English) 코퍼스는 싱가포르와 말레이시아에서 중국어와 영어를 혼합하는 이중 언어 화자들의 자연스러운 대화를 포착하도록 설계된 음성 데이터셋입니다. 약 192시간의 오디오 녹음과 인터뷰가 포함되며, 156명의 화자가 참여합니다. 대화는 일상적인 주제를 다루며 종종 문장 내에서 언어 전환을 보여줍니다. 각 발화는 정확히 전사되어 있으며, 언어 경계에 명확한 라벨이 부여되므로 실제 이중 언어 상호작용을 처리해야 하는 자동 음성 인식 시스템 훈련 및 평가를 위해 SEAME는 표준 벤치마크로 널리 사용됩니다. 그 자연스러운 성격, 현실적인 언어 혼합 및 세부 주석으로 인해 SEAME은 코드 스위칭 연구 및 개발에 이상적입니다.

모델

CosyVoice 미세 조정

우리는 CosyVoice 2의 QWENLM2(0.5 B 매개변수)를 대상 도메인에 적응시킵니다. 최적화는 초기 학습률 $`\mathit{1\times10^{-4}}`$을 사용하는 Adam으로 수행됩니다. 학습률은 처음 1만 업데이트 동안 선형적으로 증가하고 나머지 200 훈련 에포크 동안 일정합니다.

Whisper ASR 미세 조정

ASR 백엔드는 제거된 Whisper-small 체크포인트(약 240M 매개변수)에서 시작하여 ESPnet에서 미세 조정합니다. 입력 웨이브포먼은 80-bin 로그-멜 필터뱅크로 변환되며(24kHz, 20ms 창, 12ms 훅); 우리는 동일한 SpecAugment 두 개의 주파수 마스크(폭 $`\le 40`$ 빔), 다섯 개의 시간 마스크(폭 $`\le 12\,\%`$ 발화) 및 다섯 프레임 시간 워프 창을 적용합니다. 최적화는 AdamW($`\beta = 0.9/0.99`$, $`\epsilon = 1\times10^{-6}`$, 무게 감소 0.01)를 사용합니다. 학습률은 ESPnet의 warmuplr 스케줄에 따라 처음 1,500 업데이트 동안 선형적으로 증가하고 나머지에서는 역제곱근 규칙으로 감소합니다. 미니 배치는 스펙트로그램 요소의 총 수를 세어 만들며 각 업데이트는 약 12M 요소에 제한되며, 경사선은 네 단계에서 누적됩니다. 모든 실험에서는 언어 ID가 자동으로 설정되었습니다.

평가

ASR 품질은 ESPNET 도구를 사용하여 SEAME 레시피의 DevMan과 DevSGE에 대한 혼합 오류율(MER)로 보고됩니다.

실험 결과

Whisper-Largev3에서 DevMan 및 DevSGE에 대한 실제 음성, 원래 화자 TTS (TTS-O), 랜덤 화자 TTS (TTS-R)의 다양한 혼합에 대한 혼합 오류율(MER)
모델 시간(시간) MER(%)
2-4(l)5-6 실제 TTS-O TTS-R DevMan DevSGE
Whisper-Largev3 100 - - 12.1 17.8
- 100 - 12.5 18.6
- - 100 17.7 22.4
100 100 - 11.1 17.0
100 - 100 10.1 16.0
- - 200 12.2 18.5

1의 결과는 실제 녹음을 추가로 합성 음성을 더한 경우 TTS가 Whisper-Largev3에 효과적인 데이터 증강 도구임을 확인합니다. 우리의 기준은 100시간의 실제 음성만으로 훈련된 Whisper를 미세 조정하여 DevMan에서 12.1% MER, DevSGE에서 17.8%의 결과를 얻었습니다. CosyVoice2로 동일한 발화를 재생산하고 원래 화자 임베딩을 유지(TTS-O)하며 두 세트를 혼합하면 개선이 이루어집니다.


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키