분절 없는 발음 정확도 평가
초록
본 논문은 기존 GOP 기반 발음 평가가 필요로 하는 음성 구간 분할 문제를 해결하고자, CTC 학습 모델을 그대로 활용할 수 있는 자체 정렬 GOP(GOP‑SA)와 모든 가능한 구간 분할을 고려하는 분절‑무료 GOP(GOP‑SF)를 제안한다. 이론적 정의, 정규화 방법, 수치 안정화 기법을 제시하고, CMU Kids와 speechocean762 데이터셋에서 피크성, 문맥 길이 등에 대한 영향 분석과 최신 방법과의 성능 비교를 수행한다. 실험 결과, GOP‑SF 기반 특징 벡터가 음소 수준 발음 진단에서 최첨단 수준의 정확도를 달성함을 보여준다.
상세 분석
이 연구는 발음 진단에서 가장 오래된 지표인 Goodness of Pronunciation(GOP)의 근본적인 한계를 짚어낸다. 전통적인 GOP는 강제 정렬을 전제로 하여, 음성 신호를 정확히 음소 경계에 맞추는 것이 전제되지만, 실제 발화에서는 공동조음, 연령·악센트·건강 상태 등에 따라 경계가 모호하고 정렬 오류가 빈번히 발생한다. 특히 CTC 기반 엔드‑투‑엔드 ASR 모델은 “피키”한 출력 특성을 보이며, 프레임‑레벨 정렬이 명시적으로 존재하지 않는다. 이러한 상황에서 기존 GOP‑EA(외부 정렬) 방식은 모델 출력과 실제 발음 구간 사이의 불일치를 야기해 평가 신뢰도를 저하시킨다.
논문은 두 가지 해결책을 제시한다. 첫 번째는 Self‑Alignment GOP(GOP‑SA)로, CTC 모델이 자체적으로 생성한 정렬 경로(최대 확률 경로)를 사용해 동일한 활성값을 정렬과 GOP 계산에 동시에 활용한다. 이는 별도의 강제 정렬기를 필요로 하지 않으며, 모델의 피키 현상을 그대로 반영한다. 두 번째는 Segmentation‑Free GOP(GOP‑SF)이다. 여기서는 목표 음소에 대한 모든 가능한 구간 분할을 확률적으로 합산해, 특정 구간에 의존하지 않는 점수를 산출한다. 핵심은 (1) 구간 길이에 대한 정규화—구간 길이가 다르면 로그 확률이 과도하게 편향될 수 있기에, 길이‑정규화 항을 도입해 점수를 길이 무관하게 만든다. (2) 수치 안정화—가능한 모든 구간을 합산하면 확률값이 매우 작아져 언더플로우가 발생할 수 있다. 이를 위해 로그‑합‑지수 기법(log‑sum‑exp)을 적용하고, 동적 프로그래밍을 이용해 효율적으로 합산한다.
또한 논문은 “피키성(peakiness)”이라는 개념을 정량화한다. 피키성이 높은 모델은 활성값이 짧은 시간에 집중되므로, GOP‑SF의 정규화가 과소/과대 평가에 미치는 영향을 실험적으로 분석한다. 결과는 피키성이 낮은(평탄한) 모델에서는 GOP‑SF가 기존 GOP‑EA와 거의 동일한 성능을 보이지만, 피키성이 높은 경우 정규화가 없으면 점수가 크게 왜곡됨을 보여준다.
문맥 길이(utterance context) 역시 GOP‑SF에 영향을 미친다. 목표 음소 주변의 음소가 더 많이 포함될수록 CTC 모델의 경로가 더 풍부해져, 목표 음소에 대한 확률 질량이 분산된다. 실험에서는 3프레임, 7프레임, 15프레임 등 다양한 컨텍스트 윈도우를 적용했으며, 적절한 컨텍스트 크기가 GOP‑SF의 안정성과 정확도를 최적화한다는 결론을 도출한다.
최종적으로, 제안된 GOP‑SF 기반 특징 벡터(음소별 로그 확률, 정규화된 길이, 컨텍스트 정보)를 사용해 이진·삼진 발음 진단 분류기를 학습시켰을 때, speechocean762 데이터셋에서 기존 Lattice‑GOP, DNN‑GOP, 최근 Transformer‑CTC 기반 방법들을 모두 능가하는 F1 점수와 정확도를 기록했다. 이는 강제 정렬 없이도 CTC 기반 모델을 그대로 활용해 높은 수준의 발음 평가가 가능함을 실증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기