대규모 LLM 기반 실시간 음성인식 시스템 Fun‑ASR
초록
Fun‑ASR는 데이터·모델·LLM 3대 축을 결합한 대규모 음성‑언어 모델로, 스트리밍, 잡음 강인성, 코드‑스위칭, 핫워드 맞춤 등 실서비스 요구를 충족한다. 자체 전처리·프리트레인·SFT·RL 파이프라인을 통해 산업 현장 데이터셋에서 최첨단 정확도를 달성했으며, 코드‑네이티브와 오픈소스 베이스라인을 모두 능가한다.
상세 분석
본 논문은 최근 ASR 연구에서 강조되는 “데이터 스케일링·모델 스케일링·LLM 통합”이라는 삼중 축을 실증적으로 검증한다. 먼저 데이터 측면에서 수십 만 시간 규모의 다국어 음성 데이터를 수집·정제하고, 라벨이 없는 음성에 대해 자체 베스트‑RQ(BERT‑기반 양자화) 프레임워크와 사전 학습된 텍스트 LLM(Qwen‑3) 가중치를 교차 초기화함으로써, 비지도 학습 단계에서 언어적 편향을 사전에 주입한다. 이어서 라벨이 있는 대규모 코퍼스를 이용한 AED 방식의 감독 학습을 병행해 음성 인코더의 음향‑언어 정합성을 강화한다.
모델 아키텍처는 (1) 0.7 B 파라미터 음성 인코더, (2) 2‑계층 트랜스포머 어댑터, (3) CTC 디코더, (4) 7 B 규모 LLM 디코더로 구성된다. 어댑터는 인코더와 LLM 사이의 표현 공간을 매핑하며, CTC 디코더는 초기 가설을 제공해 핫워드 맞춤에 활용한다. 파라미터 효율성을 위해 Fun‑ASR‑nano(0.8 B) 모델도 제시했으며, 이는 저사양 디바이스에 적합하도록 설계되었다.
실용성 강화를 위해 스트리밍 파이프라인을 설계하고, 다단계 잡음 강인성(노이즈 억제 전처리 + 멀티‑스케일 어텐션)과 중‑영 코드‑스위칭을 위한 언어 식별 모듈을 삽입했다. 핫워드 커스터마이징은 CTC 가설과 LLM 디코더의 교차 검증을 통해 실시간으로 적용된다.
학습 단계는 4단계 SFT와 1단계 컨텍스트 SFT, 그리고 RL 단계로 구성된다. SFT에서는 어댑터 고정 → 인코더·어댑터 공동 학습 → LLM LoRA 파라미터 미세조정 → 전체 파라미터 공동 학습 순으로 진행되며, 각각 수십 만~수백만 시간 규모 데이터를 사용한다. 컨텍스트 SFT는 키워드 추출·LLM 기반 컨텍스트 합성·무관 컨텍스트 혼합 과정을 통해 5분 길이의 장문 음성에 대한 장기 의존성을 강화한다.
RL 단계에서는 FunRL이라는 전용 프레임워크를 구축해 오디오‑LLM 모델에 맞는 배치·GPU 전환 전략을 구현했다. GRPO 기반 정책 최적화를 적용해, 다중 가설 생성 후 규칙 기반 보상 함수를 통해 정책을 업데이트한다. 실험 결과, 8 GPU 환경에서 1시간 음성당 0.015 RTF를 달성, 실시간 학습이 가능함을 입증한다.
평가에서는 Whisper, Seed‑ASR, FireRed‑ASR 등 기존 최첨단 모델과 비교해, 공개 벤치마크뿐 아니라 자체 수집한 산업용 평가 세트에서 WER을 10 % 이상 낮추었다. 특히 잡음 환경·코드‑스위칭·핫워드 시나리오에서 기존 모델 대비 15~30 %의 상대적 개선을 보였다.
한계점으로는 초대규모 라벨링 비용, LLM 초기화에 대한 의존성, 그리고 RL 보상 설계가 규칙 기반이라 일반화에 제약이 있을 수 있다는 점을 언급한다. 향후 다중 모달(영상·텍스트) 통합 및 자동 보상 학습으로 확장할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기