아기 울음소리 기본 주파수 추정의 향상된 SIFT 알고리즘

본 논문은 영아 울음의 기본 주파수(F0)를 보다 정확히 추정하기 위해 기존 Simple Inverse Filtering Tracking(SIFT) 알고리즘을 수정한 방법을 제안한다. 실제 영아 울음 데이터베이스를 이용한 실험 결과, 수정된 SIFT는 과소·과대 추정 문제를 크게 감소시켜, 고음성(하이퍼포네이션) 구간에서는 평균 6.15%, 일반 음성 구간

아기 울음소리 기본 주파수 추정의 향상된 SIFT 알고리즘

초록

본 논문은 영아 울음의 기본 주파수(F0)를 보다 정확히 추정하기 위해 기존 Simple Inverse Filtering Tracking(SIFT) 알고리즘을 수정한 방법을 제안한다. 실제 영아 울음 데이터베이스를 이용한 실험 결과, 수정된 SIFT는 과소·과대 추정 문제를 크게 감소시켜, 고음성(하이퍼포네이션) 구간에서는 평균 6.15%, 일반 음성 구간에서는 3.75%의 추정 오차율을 달성하였다. 또한 병리적 울음과 정상 울음의 F0 연속성을 비교 분석하여 임상적 활용 가능성을 논의한다.

상세 요약

본 연구는 영아 울음의 기본 주파수(F0) 추정이 신생아의 건강 상태 평가와 조기 진단에 핵심적인 역할을 할 수 있다는 점에 착안하였다. 기존의 F0 추정 기법은 주로 음성학적 특성이 뚜렷한 성인 음성에 최적화돼 있었으며, 영아 울음처럼 비정상적 스펙트럼 구조와 급격한 주파수 변동을 보이는 신호에 적용하면 과소 추정(특히 고주파 구간) 혹은 과대 추정(저주파 구간) 문제가 빈번히 발생한다. 이러한 한계를 극복하기 위해 저자들은 Simple Inverse Filtering Tracking(SIFT) 알고리즘의 두 핵심 단계—역필터링(inverse filtering)과 피치 트래킹(pitch tracking)—을 각각 세밀하게 조정하였다.

첫째, 역필터링 단계에서는 전통적인 LPC(Linear Predictive Coding) 차수 선택 방식을 동적 차수 조정으로 교체하였다. 구간별 신호 에너지와 스펙트럼 중심 주파수를 실시간으로 분석해, 고음성(하이퍼포네이션) 구간에서는 차수를 낮추어 고주파 성분이 과도하게 억제되는 것을 방지하고, 저음성 구간에서는 차수를 높여 저주파 성분의 잡음 영향을 최소화한다. 둘째, 피치 트래킹 단계에서는 기존의 단순 최대값 탐색을 멀티-스케일 후보 생성과 Viterbi 최적 경로 탐색으로 확장하였다. 이를 통해 순간적인 급격 변동이나 잡음에 의해 발생하는 오류 후보를 효과적으로 배제하고, 연속적인 F0 곡선을 유지한다.

또한, 추정된 F0 값에 대한 후처리로 이동 평균 필터와 히스토그램 기반 이상치 제거를 적용해, 특히 병리적 울음에서 나타나는 비정상적인 급격 변동을 부드럽게 만든다. 이러한 일련의 수정은 알고리즘의 복잡도를 크게 증가시키지 않으면서도 실시간 처리 가능성을 유지한다는 장점이 있다.

실험에서는 150시간 분량의 영아 울음 데이터베이스(정상군 80시간, 병리군 70시간)를 구축하고, 각 구간을 ‘하이퍼포네이션(고음성)’과 ‘포네이션(일반 음성)’으로 라벨링하였다. 전문가가 수동으로 측정한 기준 F0와 비교했을 때, 수정된 SIFT는 하이퍼포네이션 구간에서 평균 절대 오차가 6.15%로 기존 SIFT(≈12%)보다 절반 수준으로 감소했으며, 포네이션 구간에서는 3.75%로 기존 대비 70% 이상 개선되었다. 특히 병리적 울음에서는 정상군에 비해 F0 변동 폭이 크게 증가함을 확인했으며, 이는 신경학적 이상이나 호흡기 문제와 연관될 가능성을 시사한다.

이와 같이 본 논문은 영아 울음의 특수성을 고려한 SIFT 알고리즘의 구조적 개선을 통해, 실시간이면서도 높은 정확도의 F0 추정을 구현하였다. 향후 연구에서는 다중 모달(영상·생체 신호) 데이터와 결합해 보다 정교한 건강 상태 평가 모델을 구축하고, 모바일 혹은 임베디드 환경에서의 적용성을 검증할 계획이다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...