노이즈에 강한 음·시각 융합 인증 모델
본 논문은 음성 및 얼굴 영상을 동시에 활용해 온라인 인물 인증을 수행하는 멀티모달 시스템을 제안한다. 주의(attention) 메커니즘을 도입해 두 모달리티 중 현재 품질이 높은 쪽에 가중치를 부여함으로써, 한쪽 모달리티가 손상되거나 완전히 결여된 상황에서도 안정적인 인증 성능을 유지한다. VoxCeleb2 데이터셋 실험에서 기존 점수‑레벨 융합 및 단순 특징 결합 방식보다 낮은 EER과 mDCF를 달성했으며, 특히 짧은 음성 구간(0.115…
저자: Suwon Shon, Tae-Hyun Oh, James Glass
본 연구는 온라인 인물 인증을 위해 음성 및 얼굴 영상을 동시에 활용하는 멀티모달 시스템을 설계하고, 그 성능을 다양한 실험을 통해 검증한다. 연구 배경으로는 인간 뇌가 얼굴과 목소리를 통합해 인물을 인식한다는 신경과학적 발견이 있다. 기존 멀티모달 인증 연구는 주로 두 모달리티를 별도로 학습한 뒤 점수‑레벨 융합을 적용하거나, 오프라인 방식으로 여러 프레임·수 초의 음성을 사용해 높은 정확도를 추구했다. 그러나 이러한 접근은 실시간 처리에 부적합하고, 한쪽 모달리티가 손상될 경우 성능이 급격히 저하되는 단점이 있다.
이에 저자들은 특징‑레벨 융합을 채택하고, 특히 모달리티 간 가중치를 동적으로 조정하는 어텐션 메커니즘을 도입하였다. 시스템 구성은 크게 세 부분으로 나뉜다. 첫째, 음성 임베딩 eᵥ 와 얼굴 임베딩 e𝒻 을 각각 기존의 강력한 딥러닝 모델(VoxCeleb1 기반 음성 네트워크, FaceNet 기반 얼굴 네트워크)에서 추출한다. 음성 임베딩은 10 ms 프레임을 25 ms 윈도우로 추출하고, 0.115 s 혹은 1.015 s 구간을 평균해 600‑D 벡터로 만든다. 얼굴 임베딩은 Dlib으로 정렬·크롭한 후 FaceNet의 512‑D FC7 레이어 출력을 사용한다.
둘째, 어텐션 레이어는 두 임베딩을 연결(concatenate)한 뒤 선형 변환 W·
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기