진동 기반 로봇 손 접촉 인식: 저비용 마이크와 트랜스포머로 5mm 이하 정확도 달성
초록
본 논문은 7개의 저가형 압전 마이크와 Audio Spectrogram Transformer(AST)를 이용해 로봇 손의 접촉 위치와 움직임을 고정밀(정적 5 mm 이하)으로 추정한다. 재료 강성에 따라 임펄스 응답과 마찰 기반 궤적 추적 성능이 달라짐을 분석하고, 로봇 자체 움직임 중에도 견고한 추적이 가능함을 실험으로 입증한다. 데이터·모델·코드는 모두 오픈소스로 제공한다.
상세 분석
Vibro‑Sense는 기존 촉각 스킨이 갖는 고비용·복잡성 문제를 회피하기 위해 구조에 내재된 진동을 직접 측정한다는 점에서 혁신적이다. 하드웨어는 Seed Robotics RH8D 손에 7개의 Harley‑Bentton CM‑1000 압전 마이크를 균등히 배치한 단순 구조이며, 각 마이크는 ±500 mV 범위의 전압을 50 kHz로 샘플링한다. 데이터 전처리는 20 kHz로 다운샘플링 후 200 ms 윈도우(125–325 ms)로 절단하고, STFT(윈도우 길이 128)로 시간‑주파수 스펙트로그램을 만든 뒤 배경 잡음을 사전 100 ms 구간으로 추정해 제거한다.
핵심 모델은 Audio Spectrogram Transformer(AST)이며, 이는 이미지‑기반 Vision Transformer와 유사하게 스펙트로그램 패치를 토큰화해 다중 헤드 어텐션을 수행한다. 임펄스 응답 로컬라이제이션에서는 단일 충격 이벤트(솔레노이드가 만든 펀치)와 마이크 간 상대 위상·진폭 차이를 학습해 3‑D 좌표를 회귀한다. 실험 결과, 금속과 같은 강체는 고주파 성분이 풍부해 3 mm 이하의 평균 오차를 보였으며, 목재와 같은 텍스처가 풍부한 재료는 마찰에 의한 저주파 변동이 뚜렷해 연속적인 궤적 추적에 유리했다.
동적 궤적 추적 실험에서는 UR5e 로봇이 다양한 패턴을 손에 그리면서 손 자체가 움직이는 상황을 재현했다. 두 가지 데이터셋(정적 손, 동적 손) 모두에서 평균 위치 오차는 6–9 mm 수준으로, 특히 손이 움직이는 경우에도 잡음 보정 메커니즘이 효과적으로 작동함을 확인했다. 모델은 200 ms 청크 단위로 실시간 추론이 가능해 제어 루프에 직접 삽입할 수 있다.
한계점으로는 7개의 마이크만으로 복잡한 3‑D 형태를 완전 복원하기엔 해상도가 제한적이며, 고주파 잡음이 강한 환경(예: 모터 고속 회전)에서는 사전 필터링이 필요하다. 또한, 현재는 충격·슬라이딩 두 종류의 접촉만 다루었으며, 압축·전단 등 다른 접촉 모드에 대한 일반화는 추가 연구가 요구된다. 향후 연구에서는 마이크 배열 최적화, 멀티모달(비전·포스) 융합, 그리고 온라인 적응 학습을 통해 실시간 로봇 제어에 더욱 깊게 통합할 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기