CORAL+ 알고리즘을 활용한 비지도 PLDA 도메인 적응

본 논문은 라벨이 없는 소량의 인‑도메인 데이터를 이용해 PLDA 백엔드를 비지도 방식으로 적응시키는 CORAL+ 기법을 제안한다. 기존 CORAL의 특징 기반 정렬을 모델 수준으로 확장하여, 전체 공분산을 정규화·재색칠한 뒤 적절한 가중치와 정규화를 통해 within‑class와 between‑class 공분산을 업데이트한다. NIST SRE 2016·2018 실험에서 기존 OOD PLDA와 비교해 EER 및 MinCost를 크게 감소시켰다.

저자: Kong Aik Lee, Qiongqiong Wang, Takafumi Koshinaka

CORAL+ 알고리즘을 활용한 비지도 PLDA 도메인 적응
본 논문은 스피커 인증 시스템에서 널리 사용되는 x‑vector(또는 i‑vector)와 PLDA 백엔드가 훈련 데이터와 실제 서비스 환경 사이의 도메인 불일치로 인해 성능 저하를 겪는 문제를 다룬다. 라벨이 있는 대규모 학습 데이터는 확보하기 어렵고, 새로운 도메인마다 전체 시스템을 재학습하는 것은 비현실적이다. 따라서 기존의 OOD(Out‑of‑Domain) PLDA 모델을 소량의 라벨이 없는 인‑도메인(In‑Domain) 데이터만으로 적응시키는 비지도 방법이 필요하다. 먼저 논문은 PLDA의 수학적 배경을 정리한다. 스피커 임베딩 \(\phi\)는 선형 가우시안 모델 \(p(\phi|h,x)=\mathcal N(\phi|\mu+Fh+Gx,\Sigma)\) 로 가정되며, 이를 적분하면 전체 공분산이 \(\Phi_b+\Phi_w\) 로 표현된다. 여기서 \(\Phi_b=FF^T\)는 스피커 간 변동(between‑class), \(\Phi_w=GG^T+\Sigma\)는 스피커 내 변동(within‑class)이다. 인증 단계에서는 두 임베딩 \(\phi_1,\phi_2\)에 대해 로그우도비 \(\log\frac{p(\phi_1,\phi_2)}{p(\phi_1)p(\phi_2)}\) 를 계산한다. 도메인 불일치가 존재하면 OOD 데이터에서 추정된 \(\Phi_b,\Phi_w\)가 인‑도메인 데이터의 실제 통계와 차이가 난다. 기존 연구에서는 특징 수준에서 CORAL(Correlation Alignment)을 적용해 OOD 특징을 인‑도메인 공분산에 맞추었다. CORAL은 OOD 공분산 \(C_o\)를 화이트닝하고 인‑도메인 공분산 \(C_I\)로 재색칠하는 선형 변환 \(A=C_I^{1/2}C_o^{-1/2}\) 를 정의한다. 변환된 특징을 다시 PLDA에 학습시키면 성능이 개선되지만, 특징 변환과 재학습이라는 두 단계가 필요했다. 본 논문은 이 과정을 모델 수준으로 직접 옮긴다. 변환 행렬 \(A\)를 그대로 PLDA의 공분산에 적용하면 \

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기