퍼지 수학을 활용한 음성인식 파라링구스틱 제거 방안

초록

본 논문은 인간의 말 속에 포함된 파라링구스틱(억양·감정·강세 등) 정보를 퍼지 수학으로 모델링하여 제거함으로써, 음성‑텍스트 변환 정확도를 향상시키는 방법을 제시한다. 기존 ASR 시스템이 겪는 불확실성·다양성 문제를 퍼지 집합·멤버십 함수로 표현하고, 파라링구스틱 요소와 순수 언어 요소를 구분하는 알고리즘을 설계한다. 실험 결과, 제안 기법이 표준 HMM‑기반 모델 대비 인식 오류율을 12 % 정도 감소시켰음을 보고한다.

상세 분석

이 논문은 자동 음성 인식(ASR) 분야에서 오랜 기간 동안 해결되지 않아 온 ‘파라링구스틱’ 요소, 즉 억양·강세·감정·속도와 같은 비언어적 특성이 인식 정확도를 저해한다는 점에 주목한다. 전통적인 HMM(숨은 마르코프 모델)이나 DNN(심층 신경망) 기반 시스템은 주로 음향 특징을 확률적으로 매핑하는 데 초점을 맞추지만, 파라링구스틱 변동성을 명시적으로 모델링하지 못한다. 이러한 한계를 극복하기 위해 저자는 퍼지 수학(Fuzzy Mathematics)을 도입한다. 퍼지 집합은 ‘불확실성’과 ‘부분적 포함’을 수학적으로 표현할 수 있어, 연속적인 억양 변화나 감정 상태와 같은 연속적인 파라링구스틱 변수를 멤버십 함수로 매핑하는 데 적합하다.

논문에서는 먼저 음성 신호를 프레임 단위로 나눈 뒤, 각 프레임에 대해 스펙트럼, 멜‑주파수 켑스트럼 계수(MFCC)와 같은 전통적인 음향 특징과 함께 파라링구스틱 특징(피치 변동, 에너지 변동, 포즈톤 등)을 추출한다. 이후, 파라링구스틱 특징에 대해 ‘높음·보통·낮음’ 등 3~5 단계의 퍼지 라벨을 정의하고, 가우시안형 혹은 삼각형 멤버십 함수를 적용한다. 이렇게 정의된 퍼지 라벨은 파라링구스틱 요소의 강도를 정량화하고, 동시에 언어적 내용과의 상관관계를 최소화한다.

핵심 알고리즘은 퍼지 인퍼런스 엔진을 이용해 파라링구스틱 라벨을 ‘제거’하거나 ‘감쇠’시키는 과정이다. 구체적으로, 각 프레임의 퍼지 멤버십 값이 사전에 정의된 임계값을 초과하면 해당 프레임을 가중치 0에 가깝게 조정하거나, 가중 평균을 통해 언어적 특징만을 강조한다. 이렇게 변환된 특징 벡터는 기존 HMM 혹은 최신 Transformer‑기반 언어 모델에 그대로 입력될 수 있다.

실험 설계는 두 가지 데이터셋(공개된 TIMIT와 감정이 라벨링된 IEMOCAP)을 사용해 비교한다. 베이스라인은 전통적인 전처리 없이 바로 HMM/CTC 모델에 입력한 경우이며, 제안 방법은 퍼지 기반 파라링구스틱 제거 후 동일 모델에 입력한다. 결과는 단어 오류율(WER)과 문자 오류율(CER) 두 지표에서 모두 베이스라인 대비 평균 10~15 %의 개선을 보였다. 특히 감정이 강하게 표현된 구간에서 오류 감소 효과가 두드러졌으며, 이는 파라링구스틱 변동이 인식 오류의 주요 원인임을 실증한다.

논문의 한계점으로는 멤버십 함수와 임계값 설정이 경험적이며, 다양한 언어·방언에 대한 일반화가 아직 검증되지 않았다는 점을 지적한다. 향후 연구에서는 자동 퍼지 파라미터 최적화 기법(예: 유전 알고리즘·베이지안 최적화)과 다중 모달(영상·텍스트) 데이터를 결합한 하이브리드 모델을 탐색할 필요가 있다.

전반적으로 이 연구는 퍼지 수학을 이용해 비언어적 변동성을 정량화·제거함으로써, 기존 ASR 시스템의 불확실성을 구조적으로 감소시키는 새로운 패러다임을 제시한다는 점에서 학술적·실용적 의의가 크다.