올인원 음성인식: CTC, 어텐션, 트랜스듀서를 하나의 모델로 통합한 듀얼 모드 ASR

올인원 음성인식: CTC, 어텐션, 트랜스듀서를 하나의 모델로 통합한 듀얼 모드 ASR
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 CTC, 어텐션 기반 인코더-디코더(AED), 트랜스듀서 등 다양한 음성인식(ASR) 패러다임과 오프라인/스트리밍 모드를 단일 모델에서 지원하는 통합 프레임워크 ‘올인원 ASR’을 제안한다. 별도의 모델을 유지하는 데 드는 비용을 줄이기 위해 ‘멀티 모드 조이너’를 도입했으며, 실험 결과 개별 모델과 동등하거나 더 나은 성능을 유지하면서 전체 모델 크기를 크게 줄였다. 또한, 서로 다른 ASR 모드의 상호 보완적 강점을 활용한 결합 디코딩으로 인식 정확도를 추가로 향상시켰다.

상세 분석

이 논문의 핵심 기술적 기여는 ‘멀티 모드 조이너(Multi-mode Joiner)‘의 설계에 있다. 기존의 트랜스듀서(정확히는 HAT) 아키텍처를 기반으로, 조이너 블록을 트랜스포머 디코더 구조와 유사하게 재구성하여 매개변수를 완전히 공유하면서도 모드 전환만으로 CTC, AED, 트랜스듀서, 언어 모드(LM)의 동작을 구현할 수 있게 했다.

주요 통찰은 다음과 같다:

  1. 모드 간 매개변수 완전 공유: 트랜스듀서 모드용 시그모이드 어텐션과 AED 모드용 소프트맥스 어텐션이 동일한 선형 변환 가중치(W_query, W_key, W_value)를 사용한다. 이는 모델 복잡도와 크기를 증가시키지 않으면서 다양한 추론 방식을 가능하게 하는 핵심이다.
  2. 스트리밍 AED를 위한 혁신적 접근: 기존 스트리밍 AED는 청크 경계나 특수 토큰을 명시적으로 모델링해야 했으나, 본 논문에서는 트랜스듀서 모드에서 생성된 얼라인먼트 정보를 실시간으로 크로스-어텐션 마스크로 변환하여 사용한다. 또한, 디코더 상태(예측기 출력)를 AED와 트랜스듀서 모드가 완전히 공유함으로써, AED 모드 추론 시 별도의 디코더 상태 재계산 없이 트랜스듀서의 공백 확률과 프레임 동기화 메커니즘을 재활용할 수 있어 추론 효율성이 극대화된다.
  3. 듀얼 모드 인코더와의 시너지: 제안된 멀티 모드 조이너는 오프라인(전체 문맥)과 스트리밍(제한된 문맥) 모드를 지원하는 듀얼 모드 인코더(Conformer 또는 ConMamba)와 자연스럽게 결합된다. 이를 통해 하나의 통합 모델 파라미터 세트로 네 가지 조합(오프라인/스트리밍 x 트랜스듀서/AED/CTC)의 동작을 구현할 수 있다.
  4. 결합 디코딩의 실용성: 별도의 디코더 분기를 유지하지 않고 매개변수를 공유하기 때문에, 트랜스듀서와 AED 모드의 예측을 저렴한 비용으로 결합 디코딩에 활용할 수 있다. 이는 서로 다른 모드의 강점(예: AED의 짧은 발화 강점, 트랜스듀서의 긴 발화 강점)을 효과적으로 융합하여 성능을 높이는 동시에 배포 복잡성을 해결한다.

이러한 설계는 모델 개발, 배포, 유지보수 비용을 획기적으로 줄이면서도 다양한 애플리케이션 요구사항(지연 시간, 정확도, 리소스 제약)에 유연하게 대응할 수 있는 실용적인 솔루션을 제시한다는 점에서 큰 의의가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기