단순 운동학 피드백으로 자율 학습 가속화

본 논문은 텐던‑구동 로봇 다리(2관절, 3텐던)에서 자율 학습 기반 제어를 구현하기 위해 기존 General‑to‑Particular(G2P) 알고리즘에 간단한 관절 각도 피드백을 추가한 두 가지 버전을 비교한다. G2P는 ‘모터 베이블링’ 단계에서 무작위 텐던 활성화 신호와 그에 따른 관절 궤적 데이터를 수집하고, 이를 이용해 다층 퍼셉트론(MLP)으로 역맵을 학습한다. 역맵은 원하는 관절 각·속·가속을 입력받아 텐던 활성화 값을 출력한다. 피드백을 포함한 폐쇄‑루프 시스템은 다음과 같은 구조를 가진다. 목표 관절 각도 q_d 와 현재 관절 각도 q_p 의 차이 qₑ를 계산하고, 이를 K_P·qₑ + K_I·∫qₑ dt 형태의 보정 속도 \dot{q}_a에 더한다. 보정된 속도는 목표 속도 \dot{q}_d에 합산되어 최종 목표 속도 \dot{q}_c를 만든다. 이렇게 수정된 목표 속도와 원래 목표 가속도 \ddot{q}_d는 역맵에 입력되어 텐던 활성화 a를 생성한다. 이 과정은 매 샘플마다 실시간으로 수행된다. 실험은 시뮬레이션(MuJoCo)과 실제 하드웨어(전동 브러시리스 DC 모터와 텐던)에서 동일하게 수행되었다. ① 공중에서 50개의 무작위 사이클 궤적을 2.5 s 주기로 수행하는 작업에서는 폐쇄‑루프가 distal 관절에서 특히 큰 오차를 감소시켰다. 이는 모든 텐던이 proximal 관절을 먼저 통과하기 때문에 오차가 전파되는 특성 때문이다. ② 정지‑점 이동 작업에서는 작은 목표 변화를 역맵이 충분히 표현하지 못해 개방‑루프가 정밀히 도달하지 못했지만, 폐쇄‑루프는 실시간 각도 오차를 보정해 목표 위치에 근접했다. ③ 주기 변화 실험에서는 주기 > 2 s(주파수 < 0.5 Hz)에서 폐쇄‑루프가 뚜렷히 오류를 줄였으며, 고주파(짧은 주기)에서는 PI 제어의 대역폭 한계로 보정 효과가 감소했다. ④ 접촉 동역학을 포함한 두 가지 시나리오(gantry 위에서의 전진·후진 사이클, 무게 부하 하에서 직립 유지)에서는 피드백이 외부 충격과 중력 변화를 즉시 보정해 시스템이 안정적으로 동작하도록 했다. ⑤ ‘경험‑기반 재학습’ 실험에서는 초기 베이블링 시간을 5 분에서 1 분으로 줄였음에도, 매 사이클 후 축적된 데이터로 역맵을 지속적으로 업데이트함으로써 성능 저하 없이 목표 궤적을 추적했다. ⑥ 센서 지연 실험에서는 5 ms부터 100 ms까지 지연을 인위적으로 삽입했으며, 폐쇄‑루프는 100 ms 지연에서도 발산하지 않고 RMS 오류를 개방‑루프 대비 약 35 % 감소시켰다. 전체적인 결과는 Fig. 3에 요약되어 있으며, 모든 작업에서 폐쇄‑루프가 평균 RMS 오류를 0.1 rad 이하로 낮추는 등 현저히 우수한 성능을 보였다. 논문은 단순한 관절 각도 PI 피드백이 복잡한 텐던‑구동 시스템에서도 효과적으로 적용될 수 있음을 입증하고, 특히 제한된 학습 데이터와 센서 지연, 강한 접촉 교란이 존재하는 실제 로봇 환경에서 학습 속도와 견고성을 동시에 향상시킬 수 있음을 강조한다. 향후 연구에서는 비선형 보상, 적응형 이득 튜닝, 다중 자유도 시스템으로의 확장 등을 통해 피드백 대역폭을 넓히고, 보다 복잡한 작업(예: 전진 보행)에도 적용할 가능성을 제시한다.

단순 운동학 피드백으로 자율 학습 가속화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기