통계적 발산 최소화 기반 강인한 화자 식별 방법

본 논문은 테스트 발화의 특징 벡터 분포와 각 화자 클래스의 모델 분포 사이의 통계적 발산을 최소화하는 새로운 화자 식별 프레임워크를 제안한다. 기존 최대우도 기반 GMM 방법을 일반화하고, Likelihood Disparity, Hellinger Distance, Pearson χ² 등 세 가지 발산을 이용한다. 발산 함수에 대한 잔차 보정(RAF)을 수정해 이상치에 강인하도록 설계했으며, 화자별 주성분 변환(PCT)과 다중 분류기 결합을 추…

저자: Ayanendranath Basu, Smarajit Bose, Amita Pal

본 논문은 화자 식별 문제를 “테스트 발화의 특징 벡터 분포 g와 각 화자 클래스의 모델 분포 f_k 사이의 통계적 발산을 최소화하는” 문제로 재정의한다. 발산은 일반적인 형태 ρ_C(g,f)=∫C(δ(x))f(x)dx 로 정의되며, 여기서 δ(x)=g(x)/f(x)−1 은 Pearson 잔차이다. C 함수에 따라 다양한 발산이 생성되는데, 저자는 Likelihood Disparity(LD), Hellinger Distance(HD), Pearson χ²(PCS) 세 가지를 선택하였다. LD는 C(δ)=(δ+1)log(δ+1)−δ 로 정의되며, 경험적 분포 ˆg_n을 사용하면 로그우도와 동일해 기존 GMM‑Maximum Likelihood와 수학적으로 동치임을 보였다. 이는 최소거리 추정이 실제로 로그우도 최대화와 같은 결과를 낸다는 중요한 통계적 사실을 제시한다. HD와 PCS도 각각 C(δ)=2(√(δ+1)−1)², C(δ)=δ²/2 로 정의되어, 발산 최소화가 로그우도와는 다른 형태의 목적 함수를 제공함을 보여준다. 하지만 발산 최소화는 일반적으로 g를 비모수적으로 추정해야 하는데, 이는 계산 복잡도를 크게 증가시킨다. 이를 해결하기 위해 저자는 Residual Adjustment Function(RAF) A(δ)=C′(δ)(δ+1)−C(δ) 를 도입하고, 이상치에 대한 민감도를 낮추는 방식으로 수정한다. 구체적으로, LD의 경우 A(δ)=δ 를

통계적 발산 최소화 기반 강인한 화자 식별 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기