서비스 로봇을 위한 원샷 스피커 식별: CNN 기반 제네릭 검증기
본 논문은 Siamese CNN 구조를 이용해 두 음성 신호가 동일 화자인지를 판단하는 제네릭 검증기를 학습하고, 외부 음성 데이터베이스와 결합해 원샷 방식으로 새로운 사용자를 추가·식별할 수 있는 시스템을 제안한다. LibriSpeech와 VoxCeleb를 활용한 두 가지 스펙트로그램 입력(Spect‑256, Spect‑32)으로 VGG7 및 ResNet‑50 기반 모델을 비교 평가했으며, 검증 정확도·분류 정확도·처리 속도·실환경 적용성을 …
저자: Ivette Velez (1), Caleb Rascon (1), Gibran Fuentes-Pineda (1) ((1) Instituto de Investigaciones en Matematicas Aplicadas y en Sistemas (IIMAS)
본 논문은 서비스 로봇이 사람의 목소리만으로 사용자를 식별해야 하는 상황에서, 새로운 사용자가 지속적으로 등장함에도 불구하고 모델을 재학습하지 않고 즉시 인식할 수 있는 “원샷” 화자 식별 시스템을 제안한다. 핵심은 두 음성 신호가 동일 화자인지를 판단하는 제네릭 검증기를 사전 학습시키는 것으로, 이를 위해 Siamese Convolutional Neural Network(SCNN) 구조를 채택하였다. 검증기는 입력으로 두 개의 스펙트로그램을 받아 각각 독립적인 CNN(또는 ResNet)으로 특징을 추출하고, 최종 Fully‑Connected 레이어와 Softmax를 통해 ‘동일 화자’ 확률을 출력한다.
학습 데이터는 두 개의 대규모 코퍼스인 LibriSpeech와 VoxCeleb을 사용하였다. LibriSpeech는 100명 이상의 화자를 포함하고 녹음 환경이 비교적 정숙하며, VoxCeleb은 6,000명 이상의 화자를 포함하고 다양한 잡음·마이크 거리 조건을 제공한다. 두 코퍼스를 80 % 학습, 10 % 검증, 10 % 테스트 비율로 분할했으며, 학습·검증·테스트 집합 간에 화자 겹침이 없도록 하여 검증기의 일반화 능력을 확보하였다.
입력 표현은 1 초 길이의 오디오를 50 % 겹치게 슬라이싱한 뒤, 하위 주파수 대역만을 사용한 두 종류의 스펙트로그램을 만든다. Spect‑256은 1024‑point FFT 후 하위 256 포인트(≤4 kHz)를, Spect‑32는 400‑point FFT 후 하위 32 포인트(≤1.28 kHz)를 사용한다. 저주파 대역에 집중함으로써 잡음에 대한 내성을 높이고, 연산량을 크게 감소시켜 실시간 처리에 유리하게 만들었다.
아키텍처는 VGG‑7과 ResNet‑50 기반 Siamese 두 가지를 실험하였다. VGG‑7은 원본 VGG‑16의 앞 4개 Conv‑layer와 뒤 3개 FC‑layer만을 사용해 경량화했으며, Spect‑256와 Spect‑32 두 버전이 각각 0.93, 0.90 수준의 검증 정확도를 보였다. ResNet‑50은 50‑layer 깊은 잔차 블록을 활용해 복잡한 음성 특징을 포착했지만, 연산 비용이 증가해 추론 속도에서는 VGG‑7보다 약간 뒤처졌다.
평가 항목은 네 가지다. 첫째, 검증기 자체의 성능을 ROC‑AUC와 정확도로 측정했으며, 모든 모델이 0.97 이상의 AUC를 기록했다. 둘째, 검증 결과를 이용해 화자를 분류하는 단계에서, 제한된 화자 집합(≤20명)에서는 95 % 이상의 정확도를 달성했다. 셋째, 실시간 요구사항을 충족하기 위해 추론 속도를 측정했으며, VGG‑7 기반 시스템은 1 ms 이하, 전체 파이프라인은 10 ms 미만으로 로봇 대화 흐름을 방해하지 않았다. 넷째, 실제 실내 환경(LibriSpeechReal)에서 배경 잡음(−45 dBFS)와 반향(τ₆₀≈0.5 s) 하에서도 82 % 이상의 정확도를 유지했다. 이는 기존 서비스 로봇 시스템이 보통 80 % 수준에 머무는 것과 비교해 의미 있는 향상이다.
시스템 구조는 검증기, 외부 음성 데이터베이스, 그리고 검증 점수를 기반으로 최종 화자를 선택하는 ‘사용자 선택기’로 구성된다. 식별 과정에서 시스템은 데이터베이스에 저장된 모든 엔트리와 입력 음성을 쌍으로 검증하고, 가장 높은 동일성 점수를 가진 엔트리를 선택한다. 새로운 사용자가 등장하면 해당 사용자의 1~2초 음성 샘플을 데이터베이스에 추가하기만 하면 되며, 검증기 자체를 재학습할 필요가 없다. 이는 서비스 로봇이 레스토랑·카페·가정 등에서 지속적으로 새로운 고객을 맞이해야 하는 실제 운영 시나리오에 매우 적합한 특성이다.
한계점으로는 데이터베이스 규모가 커질수록 검증 연산이 선형적으로 증가한다는 점이다. 이를 해결하기 위해 향후 연구에서는 임베딩 기반 거리 검색(예: FAISS)이나 트리 구조 인덱싱을 도입해 대규모 사용자 집합에서도 실시간성을 유지하는 방안을 모색할 필요가 있다. 또한, 현재는 음성만을 이용하고 있으므로 멀티모달(음성+얼굴) 결합이나 온라인 지속 학습 메커니즘을 추가하면 보다 포괄적인 인간‑로봇 상호작용이 가능할 것이다.
결론적으로, 이 논문은 Siamese CNN 기반 제네릭 검증기를 활용해 원샷 방식으로 새로운 화자를 즉시 추가·식별할 수 있는 시스템을 제시했으며, 정확도·속도·실환경 적응성 모두에서 서비스 로봇 적용에 충분히 만족스러운 성능을 입증하였다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기