탄성 요소가 강화한 텐던 구동 로봇 다리의 자율 학습

본 연구는 텐던 구동 로봇 다리에 탄성 요소를 도입했을 때, 자율 학습 알고리즘이 어떻게 수렴 속도와 제어 정확도에 영향을 받는지를 시뮬레이션을 통해 조사한다. 근육 강성이 높을수록 초기 학습이 더 오래 걸리지만, 수렴 후에는 연속·이산 동작 모두에서 오류가 감소한다. 또한, 학습된 역기구학 맵은 강성 변화에 대해 5번 이하의 재학습으로 빠르게 적응한다. locomotion 과제에서도 적절한 강성이 학습 성공률과 보상을 향상시킨다.

저자: Ali Marjaninejad, Jie Tan, Francisco J. Valero-Cuevas

탄성 요소가 강화한 텐던 구동 로봇 다리의 자율 학습
본 연구는 텐던 구동 로봇 다리의 탄성 요소가 자율 학습 및 제어에 미치는 영향을 체계적으로 조사한다. 먼저, 2관절·3텐던 구조를 가진 생체 모사 다리를 MuJoCo 시뮬레이터에서 구현하고, 각 텐던에 병렬 탄성 스프링을 삽입해 강도 K를 0 N/m부터 20 kN/m까지 10가지 수준으로 설정하였다. 근육 모델은 수축성 요소와 속도·길이 의존성을 포함하고, 100 Ns/m의 댐퍼를 병렬로 연결하였다. 학습 방법으로는 (1) G2P(General‑to‑Particular) 알고리즘을 사용해 초기 ‘babbling’ 단계에서 무작위 근육 활성화를 3분간 수집하고, 이를 입력(관절 각·속도·가속도)과 출력(근육 활성화)으로 매핑하는 MLP(숨은 층 15노드, 20 epoch)로 역기구학 맵을 구축하였다. (2) PPO(Proximal Policy Optimization) 알고리즘을 적용해 관찰값으로부터 직접 액션을 예측하는 엔드‑투‑엔드 정책을 학습하였다. **1) 역기구학 학습과 오류 분석** 역기구학 맵 학습 과정에서 MSE를 epoch별로 기록한 결과, 강성이 낮은 경우 초기 MSE가 작아 빠르게 수렴하지만, 최종 MSE는 중간~높은 강성(2k‑10k N/m) 구간에서 가장 낮았다. 이는 높은 탄성 스프링이 시스템의 자유도를 제한해 가능한 동역학 궤적을 좁히고, ANN이 보다 일관된 매핑을 학습하도록 돕는 것으로 해석된다. **2) 동작 수행 정확도** 학습된 역기구학 맵을 이용해 두 가지 작업을 수행하였다. (a) 사이클리컬 작업에서는 관절 각도가 0.7 Hz의 사인파 형태로 π/2 위상 차이를 두고 원형 궤적을 그리도록 요구하였다. (b) 포인트‑투‑포인트 작업에서는 10개의 무작위 관절 각도 쌍을 목표로 빠르게 이동하고 3 s간 유지하도록 설계하였다. 두 작업 모두 RMSE를 관절당 라디안 단위로 측정했으며, 2k‑10k N/m 구간에서 오류가 최소화되었다. 특히 포인트‑투‑포인트 작업에서 오류 감소폭이 크게 나타났는데, 이는 급격한 관절 전이가 요구되는 상황에서 탄성 저항이 과도한 진동을 억제하고 제어 신호의 안정성을 높이기 때문이다. **3) 강성 변화에 대한 적응** 실제 로봇에서는 온도, 마모 등으로 탄성 계수가 변할 수 있다. 이를 모사하기 위해 초기 강성 A(예: 7k N/m)로 학습한 뒤, 강성을 B(예: 2k N/m)로 바꾸고 사이클리컬 작업을 수행하면서 매 시도마다 수집된 데이터를 누적해 역기구학 맵을 재학습하였다. 최대 5번의 재학습 후 RMSE가 원래 강성에서 학습한 경우와 거의 동일한 수준으로 회복되었으며, 동일 강성에서 재학습한 경우와 비교해도 큰 차이가 없었다. 이는 G2P가 데이터 기반으로 빠르게 모델을 업데이트할 수 있음을 보여준다. **4) Locomotion 기능 과제** 다리를 차체에 부착해 전진 보상을 3 m 이상 얻는 것이 목표인 locomotion 과제를 설정하였다. 차체는 x축으로 자유롭게 이동하고 y축에서는 스프링‑댐퍼 메커니즘으로 제한하였다. G2P는 100번 이하의 탐색 시도 내에 성공률이 80 % 이상(중간 강성 구간)으로 나타났으며, 성공 시 평균 보상도 높은 편이었다. PPO는 5000 에피소드(각 1000 샘플) 학습 후 평균 보상이 비슷한 수준에 도달했지만, 학습 효율성 면에서는 G2P가 더 빠른 수렴을 보였다. 높은 강성(>15k N/m)에서는 과도한 진동과 비선형성으로 인해 성공률이 급격히 감소하였다. **5) 에너지 효율성 및 설계 시사점** 비록 직접적인 에너지 소비 측정은 없었지만, 중간 강성 구간에서 오류와 보상이 동시에 개선된 점은 탄성 저장·방출 메커니즘이 동작 중 에너지 손실을 감소시켜 효율성을 높일 가능성을 시사한다. 따라서 로봇 설계 시 적절한 탄성 스프링을 삽입하면, 제어 복잡성을 증가시키면서도 학습 효율과 에너지 효율을 동시에 향상시킬 수 있다. **결론** 탄성 요소는 로봇 시스템에 비선형성과 진동 모드를 추가하지만, 데이터‑기반 자율 학습 프레임워크와 결합하면 학습 수렴 속도는 다소 늘어나더라도 최종 제어 정확도와 적응성이 크게 향상된다. 특히 2k‑10k N/m 범위의 중간 강성은 역기구학 학습, 이산·연속 동작 수행, 강성 변화 적응, 그리고 실제 locomotion 과제 모두에서 최적의 성능을 제공한다. 이러한 결과는 텐던 구동 로봇에서 탄성을 설계 변수로 활용해 뇌‑몸 공동 진화와 유사한 방식으로 로봇의 학습 및 제어 능력을 극대화할 수 있음을 시사한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기