음성 포먼트 추정을 위한 LMS와 RLS 적용

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 짧은 구간(20~30 ms) 동안 신호가 정적이라고 가정하는 전통적 음성 처리 방식의 한계를 극복하고자, 적응형 필터인 LMS와 RLS를 이용해 음성의 포먼트(공명 주파수)를 실시간으로 추정하는 방법을 제안한다. 음성 신호를 excitation과 성도 임펄스 응답의 합성으로 모델링하고, excitation을 알 수 없는 상황에서 AR(자동 회귀) 모델을 적응적으로 추정함으로써 포먼트 주파수를 추적한다. 실험 결과, RLS가 LMS보다 빠른 수렴과 높은 추정 정확도를 보였으며, 두 알고리즘 모두 기존 고정‑창 기반 방법에 비해 비정상성에 강인함을 확인하였다.

상세 분석

이 연구는 음성 신호를 짧은 시간 구간에서 정적이라고 가정하는 전통적 스펙트럼 분석 방법의 근본적인 제약을 지적한다. 실제 인간 발화는 음소 전이, 억양 변화, 급격한 성도 형태 변형 등으로 인해 20 ms 이하에서도 비정상성이 나타날 수 있다. 이러한 비정상성을 포착하기 위해 저자들은 적응형 필터링 기법, 즉 Least‑Mean‑Square(LMS)와 Recursive Least‑Squares(RLS)를 AR 모델 파라미터 추정에 적용하였다.

LMS는 간단한 경사 하강법 기반 업데이트 식을 사용해 계산 복잡도가 낮고 실시간 구현이 용이하지만, 학습률(μ)의 선택에 따라 수렴 속도와 안정성이 크게 달라진다. 논문에서는 μ를 실험적으로 조정하여 최적의 트레이드오프를 찾았으며, 특히 포먼트가 급격히 변할 때는 과도한 진동이나 발산 현상이 발생할 수 있음을 보고한다.

반면 RLS는 오차 공분산 행렬을 재귀적으로 업데이트함으로써 최소제곱 해에 빠르게 수렴한다. 이때 forgetting factor(λ)를 도입해 과거 데이터의 영향력을 조절함으로써 비정상 신호에 대한 추적 능력을 강화한다. 저자는 λ를 0.98~0.995 사이에서 실험했으며, 높은 λ 값이 잡음에 민감해지는 반면 낮은 λ 값은 급격한 포먼트 변화를 더 정확히 따라간다는 점을 강조한다.

두 알고리즘 모두 LPC(Linear Predictive Coding) 기반 AR 모델을 사용했으며, 모델 차수는 일반적인 8~12 차를 채택했다. 포먼트 주파수는 AR 파라미터의 폴(roots) 위치를 통해 추출했으며, 복소 평면에서 실수부와 허수부를 이용해 실제 주파수와 대역폭을 계산한다. 실험 데이터는 실제 발화된 영어 문장과 합성 음성(known formants) 두 종류를 사용했으며, SNR을 20 dB, 10 dB, 0 dB로 변동시켜 잡음 내성도 평가하였다.

결과적으로 RLS는 LMS에 비해 평균 추정 오차가 30 % 이상 감소하고, 수렴 시간도 절반 이하로 단축되었다. 특히 급격한 포먼트 이동(예: /i/→/a/ 전이) 구간에서 RLS는 실시간으로 정확한 궤적을 그렸으며, LMS는 지연과 진동을 보였다. 그러나 RLS는 메모리 사용량과 연산 복잡도가 LMS보다 약 5배 높아 임베디드 시스템 적용 시 하드웨어 자원 고려가 필요함을 지적한다.

이 논문은 적응형 필터를 이용한 포먼트 추정이 기존 고정‑창 FFT 기반 방법보다 비정상성에 강인함을 입증했으며, 특히 실시간 음성 인식, 코딩, 그리고 음성 변조와 같은 응용 분야에서 유용한 기반을 제공한다. 향후 연구에서는 다중 채널(스테레오) 신호, 비선형 모델, 그리고 딥러닝 기반 사전 학습과의 하이브리드 접근법을 탐색할 여지가 있다.

음성 포먼트 추정을 위한 LMS와 RLS 적용

초록

상세 분석

댓글 및 학술 토론

의견 남기기