음성 진동을 이용한 로봇 붓기 액체 높이 추정

본 논문은 로봇이 액체를 붓는 과정에서 발생하는 음향 진동을 이용해 목표 용기의 액체 높이를 실시간으로 추정하는 방법을 제안한다. 3000여 개 이상의 인간 시연 데이터를 포함한 다중모달 데이터셋을 구축하고, 음성 스펙트로그램을 입력으로 하는 단일 레이어 LSTM/GRU 기반의 Pour Net을 설계하였다. 실험 결과, 다양한 용기 형태·위치·액체 종류에 대해 높은 일반화 성능과 1 mm 수준의 정밀도를 달성하였다.

저자: Hongzhuo Liang, Shuang Li, Xiaojian Ma

음성 진동을 이용한 로봇 붓기 액체 높이 추정
본 논문은 로봇이 목표 용기에 액체를 붓는 작업에서 액체 높이를 정확히 추정하는 것이 핵심 과제임을 강조한다. 기존 연구들은 주로 카메라 기반 시각 정보나 힘·토크와 같은 촉각 정보를 이용했지만, 불투명 용기에서는 시각이 제한되고, 촉각은 로봇의 엔드 이펙터와 용기 형태에 따라 복잡한 비선형 관계를 보인다. 이러한 한계를 극복하고자 저자들은 액체가 용기에 차오를 때 남은 공기 기둥의 길이가 짧아지면서 발생하는 공명 주파수 변화를 이용한다는 물리적 직관에 착안한다. 데이터 수집 단계에서는 3가지 용기(유리, 텀블러, 머그)와 2명의 피험자를 대상으로 1000회씩, 총 3000여 개의 붓기 시퀀스를 기록하였다. 각 시퀀스는 마이크(44.1 kHz), 힘·토크 센서(500 Hz), 디지털 저울(1 Hz), 웹캠(30 Hz), 모션 트래킹 시스템(240 Hz)으로부터 동시 수집된 다중모달 데이터를 포함한다. 특히 액체 높이 라벨은 저울 무게와 용기의 기하학적 정보를 결합해 2차 다항식 보간으로 계산하였다. 음성 신호는 16 kHz로 재샘플링하고, 32 ms 윈도우와 50 % 오버랩을 적용해 512‑point FFT를 수행, 257 차원의 주파수 벡터를 얻는다. 시각화된 스펙트로그램에서는 256 Hz~2 kHz 구간에 에너지 피크가 상승하는 곡선이 관찰되며, 이는 공기 진동 주파수의 상승을 의미한다. 모델 설계는 PouringNet이라는 이름의 순환 신경망으로, 입력 스펙트로그램을 시간 순서대로 1‑layer LSTM 혹은 GRU(256 차원)로 인코딩한다. 인코더 출력은 2‑layer MLP(256→128→1)로 전달되어 현재 공기 기둥 길이 \( \hat H_a \)를 회귀한다. 손실 함수는 두 부분으로 구성된다. 첫 번째는 회귀 정확도를 위한 MSE 손실 \( L_{\text{height}} \)이며, 두 번째는 물리적 제약인 ‘공기 기둥 길이는 시간에 따라 감소한다’는 단조성 제약을 구현한 \( L_{\text{mono}} \)이다. \( L_{\text{mono}} \)는 \( \max(0, \hat H_{a,t+1} - \hat H_{a,t}) \)를 합산해, 비단조적인 예측이 발생하면 패널티를 부여한다. 두 손실을 가중합해 전체 손실을 최소화함으로써, 잡음에 강하고 부드러운 추정값을 얻는다. 학습 과정에서는 각 전체 시퀀스에서 길이 4 초의 오디오 클립을 무작위 추출해 데이터 증강을 수행하였다. 클립 수는 시퀀스 길이에 비례하도록 설정했으며, 이는 모델이 다양한 붓기 속도와 지속 시간에 대해 일반화될 수 있게 한다. 실험에서는 다음과 같은 다섯 가지 평가를 수행하였다. (1) 동일 용기·동일 마이크 위치·동일 액체(물) 조건에서의 재현성 테스트: 평균 절대 오차가 1.8 mm 수준. (2) 용기 교차 테스트: 텀블러·머그·유리 간 전이 시 평균 오차 3.2 mm, 기존 비전 기반 방법 대비 30 % 이상 개선. (3) 마이크 위치 변동 테스트: 마이크를 용기 앞·옆·위에서 측정했을 때도 평균 오차 3.5 mm 이하 유지. (4) 초기 액체 높이와 액체 종류(물·주스·오일) 교차 테스트: 초기 높이가 20 mm~80 mm 범위, 액체 종류에 관계없이 평균 오차 2.9 mm. (5) 실제 로봇 실험: 추정된 공기 기둥 길이를 목표 높이와 매핑해 피드백 제어에 사용, 목표 높이 ±5 mm 이내 정확도로 95 % 성공률 달성. 또한, 모델의 내부 표현을 시각화한 결과, LSTM 은 시간에 따라 증가하는 공기 기둥 길이에 대응하는 특징을 학습했으며, 모노톤 손실이 없을 경우 예측이 급격히 변동하는 현상이 관찰돼, 물리적 제약이 모델 안정화에 크게 기여함을 확인하였다. 논문의 주요 기여는 (1) 음향 진동을 이용해 액체 높이를 실시간 추정하는 새로운 인식 파이프라인을 제시하고, (2) 3000여 개의 다중모달 시퀀스를 포함한 대규모 데이터셋을 공개했으며, (3) 단일 모달리티(음성)만으로도 다양한 용기·액체·환경에 대해 높은 일반화 성능을 보이는 모델을 설계·검증했다는 점이다. 향후 연구로는 소음 환경에서의 강인성 강화, 시각·촉각과의 다중모달 융합, 그리고 비정형 용기(예: 불규칙한 형태)에도 적용 가능한 물리 기반 라벨링 방법 개발이 제시된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기