누가 말했을까 실시간 회의의 오디오·비주얼 화자 다이어리제이션

본 논문은 회의 상황에서 “누가 언제 말했는가”를 정확히 파악하기 위한 오디오·비주얼 화자 다이어리제이션 시스템을 제안한다. 입력으로는 360° 서라운드 뷰 비디오와 단일 혹은 다채널 마이크 배열을 사용한다. 시스템은 크게 두 단계로 구성된다. 첫 번째 단계에서는 최신 오디오‑비주얼 동기화 네트워크를 활용해 각 화자의 입 움직임과 음성 신호 간의 코사인 거리를 계산한다. 이 거리값이 사전에 정의한 임계값을 초과하는 구간을 고신뢰 발화 구간으로 선정하고, 이를 기반으로 각 화자에 대한 스피커 임베딩을 추출한다. 내부 데이터에서는 ResNet‑50 기반 임베딩을, AMI 데이터에서는 공개된 x‑vector 모델을 사용한다. 이렇게 얻어진 임베딩을 이용해 화자 모델을 자체적으로 등록(self‑enrollment)한다. 두 번째 단계에서는 실시간 인퍼런스 시 1.5 초 길이의 오디오 윈도우를 동일한 임베딩 네트워크에 통과시켜 각 화자 모델과의 유사도를 계산한다. 동시에, 비디오 스트림에서 SSD 기반 얼굴 검출·트래킹을 수행하고, VGGFace2를 이용해 얼굴 이미지와 사전 저장된 화자 프로필을 매칭해 화자 ID를 부여한다. 또한, 4채널 마이크를 Ambisonics B‑Format으로 변환하거나 BeamformIt을 이용해 시간 지연(TDOA)을 추정함으로써 사운드 소스 로컬라이제이션(SSL)을 수행한다. 이때 추정된 방위각(θ)과 각 화자의 얼굴 방향(φ) 사이의 코사인 유사도를 계산한다. 세 가지 모달리티—AV 상관점수(C_avc), 화자 모델 점수(C_sm), 방위각 유사도(cos(φ−θ))—는 가중치 α와 β를 적용해 단순 선형 결합한다. 화자가 화면에 보이지 않을 경우 AV와 SSL 점수는 0으로 처리한다. 최종적으로 가장 높은 결합 점수를 받은 화자를 현재 발화 화자로 판단한다. 시스템은 DIHARD I 베이스라인을 오디오 전처리·스피치 활동 검출·x‑vector 기반 클러스터링과 동일하게 사용하면서, 비디오와 SSL만 추가함으로써 성능을 크게 향상시킨다. 실험은 두 개의 데이터셋에서 수행되었다. 내부 데이터는 360° 카메라와 4채널 마이크로 촬영된 3시간 분량의 회의 영상이며, 화자 수는 9명, 발화가 짧고 빈번히 교체되는 어려운 환경이다. AMI 코퍼스는 100시간 규모의 다중 카메라 영상과 8채널 마이크 배열을 포함한다. 각 데이터셋에 대해 Missed Speech와 False Alarm은 동일한 VAD를 사용했기 때문에 변하지 않으며, 화자 오류(SPKE)만이 다이어리제이션 시스템에 따라 달라진다. 표 1의 결과를 보면, 단일 채널 오디오에 비디오만 추가한 SM 모델만으로도 JHU 베이스라인 대비 SPKE가 50 % 이상 감소한다. AV 상관점수와 결합한 SM+AVC 모델은 추가적인 30 % 정도 오류 감소를 보이며, 여기에 SSL을 포함한 SM+AVC+SSL 모델은 DER을 2.8 %까지 낮춘다(AMI ES 전체 8채널+비디오). 내부 데이터에서도 동일한 추세가 관찰되어, 1채널+비디오만 사용했을 때 DER이 31.1 %에서 19.4 %로 크게 감소한다. 특히 화이트보드가 사용되는 상황에서도 비디오와 SSL이 서로 보완하여 성능 저하를 최소화한다. 이 연구는 (1) 오디오‑비주얼 동기화를 이용한 자기 등록 방식이 화자 모델을 빠르게 구축해 비지도 클러스터링의 불안정성을 해소하고, (2) 다채널 마이크와 DoA 추정이 시각 정보가 부족한 경우를 보완하며, (3) 단순 가중치 융합이 복합 모달리티를 효과적으로 결합한다는 점을 입증한다. 또한, 기존 DIHARD I 오디오 파이프라인을 그대로 재사용함으로써 구현 비용을 크게 늘리지 않고도 실용적인 성능 향상을 달성한다는 실용적 의의도 갖는다.

누가 말했을까 실시간 회의의 오디오·비주얼 화자 다이어리제이션

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기