Moonshine v2 지연 최소화 스트리밍 인코더

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Moonshine v2는 슬라이딩‑윈도우 셀프‑어텐션을 적용한 스트리밍 인코더를 제안한다. 전체 어텐션의 2차 복잡도를 선형으로 낮추어 TTFT(첫 토큰까지 시간)를 크게 감소시키면서도 기존 대형 모델에 필적하는 WER을 달성한다. Tiny·Small·Medium 세 규모 모델을 공개하고, 엣지 디바이스에서 0.1 TOPS 수준의 연산으로 250 ms 이하의 지연을 구현한다.

상세 분석

본 논문은 실시간 음성 인식에서 가장 큰 병목인 “전체 인코딩 지연”을 근본적으로 해소하고자 한다. 기존 Whisper·Parakeet 등 대형 Transformer 기반 모델은 모든 프레임이 서로를 참조하는 전역 어텐션을 사용한다. 이 경우 연산 복잡도가 O(T²)이며, TTFT는 입력 길이에 비례해 선형적으로 증가한다. 저자는 이를 슬라이딩‑윈도우 어텐션(O(T·w))으로 대체함으로써, 인코더가 입력 스트림을 실시간으로 처리하고, 일정한 고정 지연(look‑ahead w_right)만을 요구하도록 설계했다.

핵심 설계는 다음과 같다. 1) 오디오 전처리: 16 kHz 원시 파형을 80‑샘플(5 ms) 단위로 나누고, CMVN·asinh 비선형을 적용한 뒤, 두 단계의 causal stride‑2 convolution을 통해 50 Hz(20 ms) 프레임 레이트로 변환한다. 이는 Whisper와 동일한 프레임 레이트를 유지하면서도 연산량을 크게 줄인다. 2) Ergodic Encoder: 절대·상대 위치 임베딩을 배제하고, (16, 4)와 (16, 0) 형태의 윈도우를 레이어별로 혼합한다. 좌측 16프레임(320 ms)과 우측 최대 4프레임(80 ms) 컨텍스트를 활용해, 초기 레이어와 최상위 레이어에서 약간의 미래 정보를 허용하면서도 대부분은 순수 인과적이다. 위치 정보를 완전히 배제함으로써 동일한 연산 블록이 시간 축 어디에서든 재사용 가능해, 하드웨어 최적화와 메모리 재활용에 유리하다. 3) Adapter: 인코더 출력에 학습 가능한 위치 임베딩을 다시 삽입하고 차원을 디코더와 맞춘다. 이는 인코더가 위치‑프리인 상태를 유지하면서도 디코더가 전통적인 RoPE 기반 위치 정보를 활용하도록 한다. 4) Decoder: 기존 Transformer 디코더에 RoPE와 SwiGLU 피드포워드를 적용, 토큰 단위 자가 회귀 방식을 유지한다. 비록 디코더 자체는 여전히 토큰‑바이‑토큰 지연을 발생시키지만, 인코더가 빠르게 유용한 특징을 제공함으로써 전체 TTFT는 크게 감소한다.

실험에서는 Tiny(22.8 M), Small(69.3 M), Medium(244.9 M) 파라미터 규모의 세 모델을 훈련하고, Open ASR 리더보드와 Whisper Large v3 등과 비교했다. 결과는 다음과 같다. • WER: Moonshine v2는 동일 파라미터 대비 10‑15% 수준의 절대 WER 감소를 보이며, Whisper Large v3와 거의 동등한 정확도를 달성한다. • TTFT: 슬라이딩‑윈도우 인코더는 0.1 TOPS 환경에서 250 ms 이하의 TTFT를 유지, 전체 어텐션 기반 모델은 동일 하드웨어에서 4 초 이상의 지연을 보인다. • 실제 응답 지연: 음성 활동 탐지(VAD) 후 텍스트 반환까지 평균 320 ms 이하로, 실시간 캡션 및 음성 명령에 충분히 빠른 수준이다. • 연산 효율: Apple M3 CPU 기준, 전체 파이프라인이 실시간 비율(1 RTF)보다 2‑3배 빠르게 동작한다.

또한 저자는 향후 CTC·RNN‑T·TDT와 같은 스트리밍‑친화적 손실 함수와 결합해 디코더 없이 인코더만으로도 완전 스트리밍을 구현할 가능성을 제시한다. 현재 구현은 Flash‑Attention 기반 슬라이딩‑윈도우를 활용하지만, 완전한 온‑디바이스 최적화를 위해 커스텀 CUDA/CPU 커널이 필요하다는 점을 인정한다.

전반적으로 Moonshine v2는 “위치‑프리 로컬 어텐션 + 어댑터 기반 위치 복원”이라는 새로운 설계 패러다임을 제시함으로써, 엣지 디바이스에서 고정 지연, 저전력, 고정밀 ASR을 동시에 만족시키는 실용적인 솔루션을 제공한다.

Moonshine v2 지연 최소화 스트리밍 인코더

초록

상세 분석

댓글 및 학술 토론

의견 남기기