초장시간 음성 인식을 위한 긴 컨텍스트 활용
초록
본 논문은 최신 Self‑Attention 기반 모델과 Flash Attention 기술을 활용해 1시간까지의 연속 음성을 직접 학습·평가함으로써, 최대 21.8분의 컨텍스트가 인식 정확도에 유의미한 향상을 제공한다는 사실을 실증한다. 위치 인코딩 방식, 모델 깊이·폭, 학습 스케줄 등 설계 요소가 긴 컨텍스트 활용에 미치는 영향을 정량적으로 분석하고, 합성 실험을 통해 언어적·음향적 장기 정보를 모두 활용한다는 결론을 도출한다.
상세 분석
이 연구는 기존 ASR 시스템이 30초 이하의 짧은 발화 단위에 국한되던 한계를 하드웨어·알고리즘 혁신을 통해 극복하고자 한다. 핵심 기술은 두 가지이다. 첫째, Flash Attention을 적용해 Self‑Attention 연산의 메모리·연산 복잡도를 크게 낮추어 1시간 길이의 스펙트로그램을 GPU 메모리에 적재할 수 있게 했다. 논문 Figure 1에서 보여지듯 H100 GPU 기준으로 70분까지의 시퀀스를 8× 서브샘플링과 결합해 초당 수시간 분량의 오디오를 처리한다. 둘째, Conformer 기반 Encoder‑only 구조에 CTC 손실을 사용해 복잡한 디코더 없이도 장기 의존성을 학습하도록 설계했다. 여기서 모델 폭(채널 수)과 깊이(레이어 수)를 조절하면 파라미터 규모가 증가하지만, 상대적인 장기 컨텍스트 활용 효율은 크게 변하지 않는다는 점을 실험적으로 확인했다.
시퀀스 길이 워밍업 전략도 중요한 기여 중 하나다. 20~30초 이하에서 바로 긴 시퀀스로 학습을 시작하면 수렴이 불안정해지므로, 초기 시퀀스 길이 s₀를 점진적으로 두 배씩 늘려가며 s_max에 도달하도록 설계했다. 이 방식은 학습 초기에 그래디언트 폭발을 방지하고, 장기 컨텍스트에 대한 초기 적응을 가능하게 한다.
위치 인코딩 실험에서는 네 가지 방식을 비교했다. (1) NoPos: Conformer의 Conv 모듈에만 의존, (2) Sinusoidal, (3) Rotary(기본 θ=10k), (4) Rotary(θ=1.5M)이다. 결과는 Rotary 인코딩이 가장 좋은 성능을 보였으며, 특히 θ 값을 크게 늘린 경우(1.5M) 먼 프레임에 대한 가중치가 균등해져 장기 의존성을 더 잘 포착한다는 점을 확인했다. 이는 기존 Transformer에서 θ=10k가 일반적이지만, 긴 시퀀스에서는 고주파 회전이 필요함을 시사한다.
평가 단계에서는 “컨텍스트 파편화” 문제를 해결하기 위해 세 가지 디코딩 전략을 제안했다. Moving‑Averaged Window는 겹치는 윈도우를 평균해 프레임별 예측을 보정하고, Buffered Window는 중앙 영역만 사용해 양쪽 컨텍스트를 충분히 확보한다. Sliding Window Attention은 전체 녹음 길이를 입력으로 하면서 로컬 어텐션 윈도우를 훈련 시 사용한 시퀀스 길이와 동일하게 제한해 메모리 효율을 유지한다. 이러한 전략을 통해 단순히 시퀀스 길이를 늘린 것이 아니라 실제로 먼 컨텍스트 정보를 활용했는지를 정밀히 측정했다.
실험 결과는 크게 두 축으로 정리된다. 첫째, 최적의 시퀀스 길이는 약 21.8분이며, 이때 Short‑Context(10 s) 대비 WER이 최대 14.2% 상대 개선을 보였다. 둘째, 도메인 차이가 큰 경우(예: 팟캐스트 vs. 회의록) 긴 컨텍스트가 더 큰 이점을 제공했으며, 동일 도메인에서는 20~82 s 이상으로 늘려도 의미 있는 향상이 없었다. 또한, 잡음이 추가된 환경에서도 긴 컨텍스트 모델이 더 견고함을 확인했다.
마지막으로 합성 데이터 실험을 통해 모델이 언어적(문맥 기반 단어 예측)과 음향적(스피커 특성, 배경 소리) 두 측면 모두에서 정보를 활용한다는 증거를 제시했다. 그러나 언어적 이해는 비교적 단순한 n‑gram 수준에 머물러, 깊은 의미 파악보다는 통계적 연관성에 의존한다는 한계도 발견했다. 전체적으로 이 논문은 하드웨어·알고리즘·아키텍처 설계가 결합될 때, ASR 시스템이 실제로 긴 오디오 스트림을 효과적으로 처리하고 장기 컨텍스트를 활용할 수 있음을 실증적으로 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기