CORAL+ 알고리즘을 활용한 비지도 PLDA 도메인 적응

본 논문은 스피커 인증 시스템에서 널리 사용되는 x‑vector(또는 i‑vector)와 PLDA 백엔드가 훈련 데이터와 실제 서비스 환경 사이의 도메인 불일치로 인해 성능 저하를 겪는 문제를 다룬다. 라벨이 있는 대규모 학습 데이터는 확보하기 어렵고, 새로운 도메인마다 전체 시스템을 재학습하는 것은 비현실적이다. 따라서 기존의 OOD(Out‑of‑Domain) PLDA 모델을 소량의 라벨이 없는 인‑도메인(In‑Domain) 데이터만으로 적응시키는 비지도 방법이 필요하다. 먼저 논문은 PLDA의 수학적 배경을 정리한다. 스피커 임베딩 \(\phi\)는 선형 가우시안 모델 \(p(\phi|h,x)=\mathcal N(\phi|\mu+Fh+Gx,\Sigma)\) 로 가정되며, 이를 적분하면 전체 공분산이 \(\Phi_b+\Phi_w\) 로 표현된다. 여기서 \(\Phi_b=FF^T\)는 스피커 간 변동(between‑class), \(\Phi_w=GG^T+\Sigma\)는 스피커 내 변동(within‑class)이다. 인증 단계에서는 두 임베딩 \(\phi_1,\phi_2\)에 대해 로그우도비 \(\log\frac{p(\phi_1,\phi_2)}{p(\phi_1)p(\phi_2)}\) 를 계산한다. 도메인 불일치가 존재하면 OOD 데이터에서 추정된 \(\Phi_b,\Phi_w\)가 인‑도메인 데이터의 실제 통계와 차이가 난다. 기존 연구에서는 특징 수준에서 CORAL(Correlation Alignment)을 적용해 OOD 특징을 인‑도메인 공분산에 맞추었다. CORAL은 OOD 공분산 \(C_o\)를 화이트닝하고 인‑도메인 공분산 \(C_I\)로 재색칠하는 선형 변환 \(A=C_I^{1/2}C_o^{-1/2}\) 를 정의한다. 변환된 특징을 다시 PLDA에 학습시키면 성능이 개선되지만, 특징 변환과 재학습이라는 두 단계가 필요했다. 본 논문은 이 과정을 모델 수준으로 직접 옮긴다. 변환 행렬 \(A\)를 그대로 PLDA의 공분산에 적용하면 \

CORAL+ 알고리즘을 활용한 비지도 PLDA 도메인 적응

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기