로봇 팔 마이크 배열을 이용한 실시간 음성 향상
초록
산업 현장의 고강도 소음 속에서 로봇 팔에 장착된 16채널 마이크 배열을 실시간으로 재배치하여 화자와의 거리를 최소화하고, 딥러닝 기반 마스크와 MVDR 빔포머를 결합해 음성 신호를 크게 개선한다. 실험 결과, 기존 고정 배열 대비 SI‑SDR과 WER 모두 유의하게 향상됨을 확인하였다.
상세 분석
본 논문은 물리적 배열 최적화를 음성 향상 파이프라인에 통합한 점에서 혁신적이다. 7자유도 로봇 팔(Kinova Gen3)에 16개의 무지향 마이크를 네 개의 서브 배열로 배치하고, 목표 화자의 3‑D 위치를 RGB‑Depth 카메라와 MediaPipe 기반 얼굴 검출로 추정한다. 추정된 방위각을 바탕으로 역기구학(IK) 솔버가 목표 화자에게 가장 가까운 자세를 계산하고, 팔을 움직여 엔드 이펙터 근처 마이크를 화자에 가깝게 배치한다. 이 물리적 재배치는 마이크 간 거리와 배열 형태를 실시간으로 변화시켜, 빔포밍의 공간 해상도를 크게 향상시킨다.
음성 향상 단계에서는 먼저 전체 16채널 입력에 대해 로그 스펙트럼을 RNN‑BLSTM 기반 DNN에 투입해 각 채널별 이상비율 마스크(IRM)를 예측한다. 이 마스크는 두 가지 용도로 사용된다. 첫째, SRP‑PHAT 기반 소스 로컬라이제이션에서 잡음·음성 공분산 행렬을 온라인으로 업데이트하는 데 사용된다. 둘째, MVDR 빔포머의 입력으로서 음성·잡음 SCM을 계산하는 데 활용된다. 특히, MVDR은 16번째 마이크를 레퍼런스로 고정함으로써, 재배치된 엔드 이펙터 마이크가 가장 높은 SNR을 제공하도록 설계되었다.
실험은 6가지 산업 소음(진공 펌프, 드릴 등)과 4가지 SNR(‑510 dB) 조건에서 1,944개의 혼합 신호를 생성해 수행되었다. SSL 단계에서는 ±15° 허용 오차 내에서 80 % 이상 정확도를 달성했으며, DNN‑예측 마스크가 오라클 마스크에 근접하는 성능을 보였다. 음성 향상 평가에서는 SI‑SDR과 Whisper 기반 WER를 사용했으며, 최적화된 동적 배열이 고정 배열 및 샷건 마이크에 비해 평균 SI‑SDR을 23 dB, WER을 10~15 % 포인트 개선하였다.
핵심 인사이트는(1) 마이크 배열의 물리적 형태를 실시간으로 조정함으로써 전통적인 고정 배열이 갖는 공간 한계를 극복할 수 있다는 점, (2) 딥러닝 기반 마스크와 전통적인 MVDR 빔포머를 결합하면 배열 변형에 대한 강인성을 유지하면서도 높은 품질의 음성 복원을 달성한다는 점이다. 또한, 로봇 팔의 관절 제어와 비전 기반 화자 추적을 통합한 시스템 설계는 산업용 HRI(Human‑Robot Interaction)에서 음성 명령 인식의 신뢰성을 크게 향상시킬 수 있음을 시사한다. 향후 연구에서는 다중 화자 상황, 실시간 ASR 피드백 루프, 그리고 더 복잡한 환경(반향·다중 경로)에서의 성능을 검증할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기