베이지안 네트워크로 보는 강인한 음성인식 모델 통합
초록
본 논문은 베이지안 네트워크를 활용해 모델 적응, 누락 특징, 불확실성 디코딩 등 강인한 자동음성인식(ASR) 기술을 하나의 공통 프레임워크로 재구성한다. 관측 모델을 베이지안 그래프 형태로 변환함으로써 기존 방법들의 보상 규칙을 유도하고, 구조적 차이와 유사성을 명확히 드러낸다. 또한 일부 기법에 대해 새로운 수식과 그래프 표현을 제시한다.
상세 분석
논문은 기존 HMM 기반 ASR 시스템에 베이지안 네트워크(BN) 관점을 도입함으로써, ‘관측 모델 → 베이지안 그래프 → 보상 규칙’이라는 일관된 흐름을 제시한다. 먼저, 전통적인 HMM은 상태 전이와 관측 확률만을 포함하는 단순 그래프로 표현된다(그림 1‑a). 여기서 관측 벡터 yₙ을 왜곡된 형태의 잠재 청정 벡터 xₙ과 연결하는 확장 그래프(그림 1‑b)를 도입하면, yₙ = f(xₙ, bₙ) 형태의 관측 모델이 BN에 명시적으로 나타난다. 이때 bₙ은 시간에 따라 변할 수도, 고정될 수도 있는 불확실성 파라미터이며, 그 통계적 가정(p(bₙ)=const, δ, 또는 시간변화 pdf)만으로 모델 적응, 누락 특징, 불확실성 디코딩을 구분한다.
베이지안 추론 규칙을 적용하면, 관측 가능도 p(yₙ|qₙ) = ∫p(xₙ|qₙ)p(yₙ|xₙ)dxₙ 로 전개된다. 이 적분은 대부분 가우시안 가정 하에 닫힌 형태로 풀리며, 결과적으로 청정 모델 p(xₙ|qₙ)와 왜곡 모델 p(yₙ|xₙ) 의 공분산이 단순히 합쳐지는 형태(p(yₙ|qₙ)=N(μₓ|qₙ, Cₓ|qₙ + C_bₙ))가 된다. 이는 가장 기본적인 불확실성 디코딩(섹션 IV‑A)과 동일한 결과이며, 베이지안 네트워크가 이 과정을 시각적으로 명확히 보여준다.
동적 분산 보상(IV‑B)에서는 로그‑합 관측 모델 yₙ = xₙ + log(1+exp(bᵣₙ−xₙ)) + bₙ 를 사용한다. 여기서는 p(xₙ|yₙ)를 가우시안으로 근사하고, 두 가우시안의 곱을 다시 가우시안으로 근사함으로써 p(yₙ|qₙ)≈N(μₓ|qₙ; μₓ|yₙ, Cₓ|qₙ + Cₓ|yₙ) 를 얻는다. 이 과정은 BN에서 ‘xₙ → yₙ’ 간의 비선형 연결을 추가하고, 추론 단계에서 근사적 변환을 수행하는 것으로 해석된다.
SPLICE(IV‑C)와 같은 스테레오 기반 선형 보상 기법은 지역 인덱스 sₙ을 이산 변수로 도입해 p(xₙ|yₙ,sₙ)=N(xₙ; yₙ+r_{sₙ}, Γ_{sₙ}) 로 표현한다. BN에서는 sₙ이 xₙ에 조건부 의존성을 갖는 추가 노드로 나타나며, 관측 모델은 yₙ = xₙ + bₙ (bₙ∼N(−r_{sₙ}, Γ_{sₙ})) 로 재구성된다. 이때 사전 p(yₙ)=∑_{sₙ}p(sₙ)p(yₙ|sₙ) 를 도입해 전체 관측 가능도를 계산한다.
공동 불확실성 디코딩(IV‑D)에서는 각 GMM 컴포넌트 kₙ마다 다른 선형 변환 A_{kₙ}와 편향 μ_{b|kₙ}를 적용한다. BN은 ‘kₙ → xₙ → yₙ’ 경로를 명시적으로 보여주며, 보상 규칙 p(yₙ|kₙ)=∫p(xₙ|kₙ)p(yₙ|xₙ,kₙ)dxₙ 가 가우시안 합으로 해석된다.
REMOS(IV‑E)는 reverberation 효과를 모델링하기 위해 과거 L개의 청정 벡터 x_{n‑l} 를 결합한다. 관측 모델 yₙ = log
댓글 및 학술 토론
Loading comments...
의견 남기기