어린이 음성 인식 향상을 위한 TICL 플러스 의미와 음향 기반 인컨텍스트 학습

본 논문은 어린이 음성 인식의 어려움을 완화하기 위해 기존 텍스트 임베딩 기반 인컨텍스트 학습(TICL)에 음향 재정렬 단계를 추가한 TICL 플러스(TICL+)를 제안한다. 의미적 유사도와 음향적 유사도를 동시에 고려해 데모 샘플을 선택함으로써, 네 개의 어린이 음성 코퍼스에서 제로샷 대비 최대 53.3 %·기존 TICL 대비 최대 37.6 %의 상대 WER 감소를 달성하였다.

저자: Haolong Zheng, Yekaterina Yegorova, Mark Hasegawa-Johnson

어린이 음성 인식 향상을 위한 TICL 플러스 의미와 음향 기반 인컨텍스트 학습
본 연구는 어린이 음성 인식의 고유한 도전 과제를 해결하고자, 기존 텍스트 임베딩 기반 인컨텍스트 학습(TICL) 방법에 음향 재정렬 단계를 추가한 TICL 플러스(TICL+) 프레임워크를 제안한다. 어린이 음성은 성인 음성에 비해 발음, 억양, 말속도, 발성 기관의 발달 단계 등에서 큰 변동성을 보이며, 라벨링된 데이터도 제한적이다. 이러한 상황에서 대규모 사전 학습된 멀티모달 모델을 파라미터 업데이트 없이 적용하는 인컨텍스트 학습은 매력적인 대안이지만, 데모 샘플 선택이 성능에 결정적인 영향을 미친다. TICL은 먼저 고정된 ASR 모델(Whisper)으로 테스트 음성에 대한 pseudo‑label을 생성하고, 이를 텍스트 인코더(Φ)로 임베딩한다. L2 정규화된 임베딩 간 유클리드 거리를 기반으로 의미적으로 가장 유사한 상위 K개의 후보를 선택한다. 그러나 어린이 음성에서는 pseudo‑label이 부정확할 수 있어 의미 기반 선택만으로는 충분히 적절한 데모를 확보하기 어렵다. 이에 TICL 플러스는 의미 기반 후보 집합(상위 300개) 위에 음향 기반 재정렬을 적용한다. Whisper‑large‑v3‑turbo와 같은 사전 학습된 음향 인코더(g)를 이용해 모든 후보와 테스트 음성의 음향 임베딩을 미리 L2 정규화한다. 테스트 음성과 후보 간의 음향 거리(r_acoustic)를 계산하고, 이 거리 기준으로 다시 상위 K개의 최종 데모를 선정한다. 두 단계 검색은 의미적 연관성과 음향적 유사성을 동시에 만족시키므로, 화자 연령, 발음 습관, 배경 잡음 등 어린이 음성의 다변성을 효과적으로 반영한다. 실험은 네 개의 어린이 음성 코퍼스(MyST, OGI Kids, ENNI, RSR)를 대상으로 수행되었다. 모든 실험은 대형 멀티모달 언어 모델 Phi‑4‑MM을 기반으로 하며, 제로샷, 기존 TICL, TICL 플러스 세 가지 설정을 비교하였다. 결과는 다음과 같다. MyST에서는 제로샷 대비 53.3 %의 상대 WER 감소, 기존 TICL 대비 37.6 % 개선을 기록했으며, 이는 대화형·노이즈가 많은 환경에서 음향 재정렬이 큰 효과를 발휘했음을 보여준다. OGI와 ENNI에서는 의미 기반 검색만으로도 일정 수준의 성능 향상이 있었지만, 음향 필터가 추가됨에 따라 각각 20 %·19.8 % 정도의 추가 개선이 나타났다. RSR에서도 읽기 위주의 발화임에도 불구하고 39.2 %의 상대 개선을 달성, 발음 및 연령대별 발성 차이를 보정하는 데 음향 재정렬이 유용함을 확인했다. 이러한 결과는 두 가지 주요 시사점을 제공한다. 첫째, 의미와 음향을 동시에 고려한 데모 선택이 저자원·고변동성 도메인에서 인컨텍스트 학습의 핵심 병목을 효과적으로 해소한다는 점이다. 둘째, 파라미터 업데이트 없이도 대형 멀티모달 모델을 다양한 어린이 음성 환경에 적용할 수 있는 실용적인 적응 메커니즘을 제시한다. 향후 연구에서는 실시간 스트리밍 시나리오, 다중 화자 혼합, 그리고 다른 저자원 언어에 대한 확장 가능성을 탐색할 계획이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기