공간정보와 시퀀스투시퀀스 기반 회의 화자 구분 혁신

공간정보와 시퀀스투시퀀스 기반 회의 화자 구분 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 SRP‑DNN으로 추정한 방향성 정보(DOA)를 시퀀스‑투‑시퀀스 신경 화자 구분(S2SND) 모델에 명시적으로 결합한 SA‑S2SND 프레임워크를 제안한다. 단일채널 학습 후 다채널 학습으로 구성된 2단계 훈련 전략과 시뮬레이션 DOA 생성 방식을 도입해 데이터 의존성을 낮추었다. AliMeeting 데이터셋에서 오프라인 DER을 7.4% 상대 감소, 채널 어텐션과 결합 시 19% 이상 향상시키는 성과를 보였다.

상세 분석

SA‑S2SND는 기존 S2SND가 음향 임베딩만을 활용해 겹치는 발화와 잡음에 취약했던 문제를 공간 정보를 통해 보완한다. 핵심은 SRP‑DNN이 제공하는 직접경로 위상 차이(DP‑IPD)를 학습해 다중 스피커의 방위각을 고해상도로 추정한다는 점이다. 이때 SRP‑DNN은 0.86 M 파라미터의 경량 CRNN 구조로, 5도 해상도의 방위각 스펙트럼을 생성하고, 반복 탐지‑제거(IDL) 절차로 한 프레임당 최대 두 스피커를 정확히 구분한다. 추정된 방위각은 시간 축을 보간해 프레임 수준 임베딩과 차원 일치를 시킨 뒤, 선형 변환을 거쳐 residual 방식으로 인코더 입력에 더한다. 이는 방향성을 위치 인코딩과 유사하게 작동해, 동일 시간에 겹치는 발화라도 서로 다른 공간적 프라이어를 부여한다.

학습은 두 단계로 나뉜다. 첫 단계(A)에서는 단일 채널 음성을 사용하면서 동시에 다채널에서 얻은 실제 DOA와 가상 VAD‑기반 DOA를 혼합해 모델을 사전 학습한다. 여기서 ResNet 추출기를 사전 학습된 스피커 검증 모델로 초기화하고, 초기 1단계에서는 이를 고정한 채 인코더·디코더만 학습한다. 이후 2·3단계에서 추출기를 풀어주고 실제·가상 DOA를 80:20 비율로 섞어 전체 파라미터를 미세조정한다. 두 번째 단계(B)에서는 크로스채널 어텐션 모듈을 추가해 다채널 입력을 처리하고, 이때도 DOA 정보를 동일하게 주입한다. 마지막에 전체 모델을 전부 미세조정함으로써, 음향 특징과 공간 특징이 상호 보완적으로 학습된다.

추론 시에는 S2SND와 동일한 블록‑와이드 슬라이딩 윈도우 방식을 사용한다. 각 블록의 인코더 출력에 보간된 DOA 행렬을 합산하고, 디텍션 디코더는 고정된 스피커 임베딩 버퍼를 통해 활동을 예측한다. 온라인 모드에서는 블록 단위 지연이 0.8 초에 불과하며, 오프라인 모드에서는 첫 번째 패스에서 얻은 버퍼를 재활용해 재스코어링을 수행한다. 따라서 실시간 요구사항을 만족하면서도 오프라인에서 높은 정확도를 달성한다.

실험은 AliMeeting의 8채널 원거리 배열과 헤드셋 데이터를 사용했으며, 시뮬레이션 데이터와 실제 데이터를 혼합해 훈련하였다. 모델 크기는 Small(16.56 M)과 Medium(45.96 M) 두 가지로 비교했으며, DOA를 사용하지 않은 S2SND와 비교했을 때 전체 DER이 Small 모델에서는 온라인 16.03 %→15.35 %(4.2 % 절감), 오프라인 13.59 %→12.59 %(7.4 % 절감)으로 개선되었다. 특히 다채널 8채널 설정에서 채널 어텐션만 적용한 경우보다 DOA 결합이 더 큰 이득을 보였으며, Medium 모델에서는 오프라인 DER 11.33 %→10.40 %로 최신 상용 시스템과 경쟁 수준을 달성했다. 이러한 결과는 방위각이라는 명시적 공간 프라이어가 교차채널 어텐션과 상호 보완적으로 작용해, 겹치는 발화와 잡음이 많은 회의 환경에서도 화자 구분 성능을 크게 향상시킨다는 것을 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기