모터 상태를 활용한 병목 특성 증강으로 인간형 로봇 음성 인식 향상

본 논문은 인간형 로봇이 움직일 때 발생하는 내부 소음, 즉 ego‑noise 가 음성 인식 성능을 크게 저하시킨다는 문제 의식에서 출발한다. 기존의 배경 잡음 억제 기법은 외부 소음에 초점을 맞추었으며, 로봇 자체의 모터·팬·기계 부품에서 발생하는 비정상적인 잡음은 충분히 다루어지지 않았다. 이러한 배경에서 저자들은 로봇의 모터 on/off 상태라는 간단하지만 유용한 보조 정보를 활용해 잡음에 강인한 ASR 시스템을 설계하였다. 제안된 시스템은 두 단계 DNN 구조로 이루어진다. 첫 번째 DNN는 입력으로 전통적인 13차원 MFCC와 모터 상태를 나타내는 2차원 one‑hot 벡터를 11프레임(시간적 컨텍스트)으로 스택한 165‑dim 벡터를 받는다. 이 네트워크는 4개의 은닉층(각 512 유닛) 중 하나에 병목 레이어를 삽입해 차원을 40 또는 80으로 압축한다. 병목 레이어의 학습 목표는 세 가지 경우로 나뉜다. 첫 번째는 음소(state) 레이블을 이용한 감독 학습(BN‑PHN), 두 번째는 모터 상태 자체를 레이블로 하는 감독 학습(BN‑MS), 세 번째는 MFCC 자체를 재구성하는 비감독 학습(BN‑MFCC)이다. 이렇게 얻어진 병목 특성은 모터 상태에 따라 변형된 음향 정보를 저차원에 압축하면서도 핵심 정보를 보존한다. 두 번째 DNN는 첫 번째 네트워크에서 추출한 병목 특성과 원본 MFCC를 다시 결합해 5개의 은닉층(512 유닛)으로 구성된 음소 모델을 학습한다. 최종 출력은 61개의 음소 클래스로, 전통적인 DNN‑ASR 파이프라인과 동일하게 설계되었다. 실험은 TIMIT 코퍼스를 기반으로 진행되었다. 로봇 JIBO에서 수집한 팬 소음과 움직임 소음을 5 dB, 10 dB, 15 dB, 20 dB SNR 수준으로 음성 신호에 혼합하였다. 비교 대상은 (1) MFCC만 사용한 기본 DNN, (2) MFCC와 one‑hot 모터 상태를 직접 결합한 DNN, (3) 제안된 병목 기반 모델들이다. 결과는 다음과 같다. ‘motor off’(팬만) 상황에서 BN‑PHN 모델은 평균 PER 25.5 %를 기록했으며, 이는 MFCC‑only 베이스라인(28.8 %) 대비 11.5 %의 상대 개선을 의미한다. ‘motor on’(팬+동작) 상황에서도 BN‑PHN은 평균 PER 25.8 %를 달성해 10.4 %의 개선을 보였다. 병목 차원을 40으로 설정한 경우와 80으로 설정한 경우의 성능 차이는 미미했으며, 계산 효율성을 고려해 40‑dim이 적합하다고 판단된다. 반면, BN‑MS와 BN‑MFCC 모델은 상대적으로 낮은 개선률을 보였으며, 이는 최종 인식 목표와 가장 직접적인 연관성을 갖는 레이블(음소)을 사용한 경우가 가장 효과적임을 시사한다. 논문의 주요 기여는 (1) 로봇의 모터 상태라는 이산적인 메타 데이터를 병목 특성으로 변환해 잡음에 강인한 저차원 표현을 얻은 점, (2) 두 단계 DNN 구조를 통해 병목 특성과 원본 음향 특성을 효과적으로 결합한 점, (3) 실제 로봇 환경을 모사한 잡음 조건에서 기존 시스템 대비 10 % 이상 PER 감소를 달성한 점이다. 한계점으로는 실험이 시뮬레이션된 잡음에 국한되었으며, 모터 상태가 이진(on/off)으로만 제공되어 보다 정밀한 모터 파라미터(속도, 전류 등)를 활용하지 못했다는 점이 있다. 향후 연구에서는 연속적인 모터 센서 데이터, 로봇 자세 정보, 다중 마이크 어레이 등을 통합한 멀티모달 병목 학습을 통해 더욱 견고한 인간‑로봇 상호작용을 구현할 수 있을 것으로 기대한다.

모터 상태를 활용한 병목 특성 증강으로 인간형 로봇 음성 인식 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기