칼만 기반 ARMA 모델을 이용한 포먼트·안티포먼트 추적 시스템

본 논문은 음성 신호의 포먼트와 안티포먼트를 ARMA cepstral 계수를 관측값으로 사용하여 확장 칼만 필터(EKF)와 스무딩을 적용함으로써, 각 프레임마다 중심 주파수와 대역폭의 점 추정값과 그 불확실성을 동시에 제공하는 KARMA(Kalman‑based Autoregressive Moving Average) 프레임워크를 제안한다. 실험에서는 전통적인 WaveSurfer와 Praat와 비교해 RMS 오차가 감소했으며, 합성음 및 비음성(코…

저자: Daryush D. Mehta, Daniel Rudoy, Patrick J. Wolfe

**1. 서론 및 배경** 음성 신호의 포먼트는 성대와 구강·비강 구조의 공명 현상을 반영하며, 음성 인식·언어학·임상 분야에서 핵심 특성으로 활용된다. 전통적인 포먼트 추적은 LPC 기반 전 스펙트럼을 구하고, 각 프레임에서 피크를 검출한 뒤, 동적 프로그래밍(DP)으로 시간적 연속성을 강제한다. 이러한 방식은 비용 함수 설계가 임의적이며, 추정값에 대한 통계적 불확실성을 제공하지 못한다는 단점을 가진다. **2. 기존 연구와 차별점** Kalman 필터를 이용한 상태공간 모델링은 1980년대부터 제안돼 왔지만, 대부분은 LPC 계수를 직접 관측값으로 사용하거나, 포먼트와 안티포먼트를 동시에 다루지 못했다. 본 논문은 ARMA 모델의 cepstral 계수를 관측값으로 삼아, 포먼트(극점)와 안티포먼트(영점)를 동일한 프레임 내에서 추정한다는 점에서 차별화된다. **3. 방법론** - **3.1 전처리**: 입력 음성 신호를 프레임 단위로 윈도잉하고, 고역통과(pre‑emphasis) 필터 sₜ

칼만 기반 ARMA 모델을 이용한 포먼트·안티포먼트 추적 시스템

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기