휴머노이드 로봇의 인터랙티브 청각 탐색을 통한 객체 분석
초록
본 논문은 인간과 유사한 청각 탐색 행동을 수행하는 휴머노이드 로봇 NICO가 플라스틱 캡슐을 흔들어 발생하는 소리를 수집하고, MFCC 전처리와 LSTM/GRU 기반 순환 신경망으로 물질 종류와 무게를 추정하는 시스템을 제안한다. 10가지 재료와 3가지 양을 조합한 30개의 캡슐을 실내 잡음 환경에서 1080개의 오디오 샘플로 학습시켰으며, 물질 분류 정확도 91%와 평균 무게 오차 27% 수준을 달성하였다.
상세 분석
이 연구는 인터랙티브 퍼셉션이라는 개념을 로봇 청각 분야에 적용한 점이 가장 큰 혁신이다. 기존의 수동 청각 인식은 주로 음성이나 환경 소음 분석에 초점을 맞추었지만, 여기서는 로봇이 직접 물체를 조작해 발생시키는 ‘액션-센서’ 루프를 설계하였다. NICO 로봇은 인간의 귀 형태를 모방한 핀니에 내장된 스테레오 마이크 2개를 사용해, 캡슐을 1 Hz의 주기로 위아래로 흔들어 내부 물질이 충돌하면서 발생하는 고유한 진동 소리를 캡처한다. 두 가지 손목 회전 각도를 적용해 진동 방향을 바꾸어 데이터 다양성을 확보한 점도 주목할 만하다.
전처리 단계에서는 인간 청각 메커니즘을 모방한 Mel Frequency Cepstral Coefficients(MFCC)를 이용하였다. 윈도우 길이 30 ms, 스텝 15 ms, 21~27개의 멜 계수를 각각 물질 분류와 무게 회귀에 최적화했으며, 0 dB 정규화로 신호 레벨을 통일했다. 하이퍼파라미터 탐색은 Tree‑structured Parzen Estimator(TPE)를 사용해 LSTM/GRU 층 수, 유닛 수, 학습률 등을 자동 튜닝하였다. 최종 모델은 물질 분류에 491‑unit GRU → 99‑unit GRU → Softmax, 무게 회귀에 376‑unit LSTM → 69‑unit LSTM → Linear 레이어 구조를 채택했다.
데이터셋은 10가지 재료(동전, 유리, 자갈, 허브, 견과류, 플라스틱, 쌀, 모래, 돌, 설탕)와 각각 20 g, 40 g, 60 g의 세 무게를 조합해 30개의 캡슐을 만든 뒤, 각 캡슐을 2회 반복, 매 회 18번 흔들어 총 1080개의 0.625 s 길이 오디오를 확보했다. 실험실 환경에 사람들의 대화와 걸음 소리 등 실제 잡음이 포함돼 로봇 청각 시스템의 노이즈 내성을 검증하였다.
분류 결과는 혼동 행렬을 통해 91%의 평균 정확도를 보였으며, 특히 쌀은 100% 정확도로 가장 구분이 쉬웠다. 설탕, 모래, 허브는 저음역대 신호가 약해 혼동이 잦았다. 무게 회귀에서는 평균 절대 오차가 3.5 g(전체 평균 무게 대비 36%)에 머물렀다. 이는 무게가 소리 진폭과 주파수 스펙트럼에 미치는 영향이 복합적이며, 현재 모델이 이러한 비선형 관계를 완전히 포착하지 못함을 시사한다.
비교 대상인 Sinapov 등(2016)의 4가지 재료와 95% 이상의 정확도와는 달리, 본 연구는 10가지 재료와 실제 잡음 환경을 다루어 더 일반화된 성능을 보여준다. 그러나 여전히 인간이 구분하기 어려운 재료 구분에서 한계가 존재하고, 실시간 동적 탐색(샘플당 흔들기 횟수 조절) 구현이 미비한 점이 향후 과제로 남는다. 또한, 로봇 자체의 모터 소음(ego‑noise)이 기록에 포함되었음에도 비교적 견고한 결과를 얻은 것은 마이크 위치와 신호 전처리의 효율성을 입증한다.
전반적으로 이 논문은 로봇이 물리적 행동을 통해 얻은 청각 데이터를 신경망으로 해석하는 파이프라인을 제시함으로써, 인간과 유사한 ‘탐색‑감각‑추론’ 사이클을 로봇에 구현하는 첫 걸음을 내딛었다고 평가할 수 있다. 향후 연구에서는 다중 모달(촉각, 시각) 통합, 동적 샘플링 전략, 그리고 더 정교한 회귀 모델을 도입해 무게 추정 정확도를 높이고, 실시간 상호작용 로봇 서비스에 적용하는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기