근육구동 다리의 몇 번의 시도만으로 자율 보행 학습
초록
본 논문은 3개의 텐던과 2개의 관절로 구성된 텐던‑구동 로봇 다리를 대상으로, 모델‑프리 방식인 G2P(General to Particular) 알고리즘을 통해 소수의 시도만으로 효과적인 보행을 학습하는 방법을 제시한다. 초기에는 무작위 ‘모터 베이블링’으로 얻은 제한된 데이터를 이용해 인공신경망이 관절운동학에서 텐던 구동 명령으로의 역매핑을 학습하고, 이후 보상 기반 탐색을 반복하면서 역매핑을 정제하고 자율적인 주기 운동(limit‑cycle)을 찾아낸다. 시뮬레이션과 실제 하드웨어 실험 모두에서 성공적인 보행을 구현했으며, 작업·기구·환경 변화에 대한 빠른 적응성을 보인다.
상세 분석
이 연구는 텐던‑구동 로봇 시스템이 갖는 세 가지 근본적인 제어 난점—비선형성, 언더‑디터미네이션(다수의 텐던 장력이 소수의 관절 토크를 생성), 오버‑디터미네이션(소수의 관절 회전이 다수의 텐던 길이 변화를 요구)—을 동시에 해결하려는 시도로서 의미가 크다. 기존 방법들은 대부분 정확한 물리 모델링이나 대규모 데이터 기반 학습에 의존했지만, G2P는 ‘일반에서 특수로(General to Particular)’라는 두 단계 전략을 채택한다. 첫 단계인 ‘일반’에서는 로봇을 자유롭게 움직이게 하는 모터 베이블링을 통해 10⁴~10⁵개의 무작위 입력‑출력 쌍을 수집한다. 이때 수집된 데이터는 매우 희소하고, 관절 각도·속도·가속도와 텐던 장력 사이의 복잡한 비선형 관계를 충분히 포괄하지 못한다. 그럼에도 불구하고, 다층 퍼셉트론(MLP) 형태의 인공신경망을 사용해 관절 상태(위치·속도·가속도) → 텐던 전압(또는 전류) 매핑을 학습하면, 초기에는 대략적인 역매핑(inverse map)만을 제공한다. 이는 생물학적 유아가 놀이를 통해 근육‑골격 시스템의 기본 동작을 탐색하는 과정과 유사하다.
두 번째 ‘특수’ 단계에서는 보상 함수가 정의된 목표 행동—예를 들어 일정한 전진 속도와 최소 에너지 소비—을 달성하기 위해 후보 텐던 구동 신호를 생성하고, 실제 로봇에 적용한다. 각 시행 후에는 보상값과 실제 관절 궤적을 기록하고, 이 데이터를 기존 신경망 학습에 추가한다. 이렇게 순환적인 ‘탐색‑정제(Explore‑Refine)’ 과정을 거치면, 신경망은 점차 실제 물리적 제약(마찰, 탄성, 비선형 텐던 강성 등)을 반영한 정확한 역매핑을 학습하게 된다. 동시에 보상 기반 탐색은 자연스럽게 제한된 주기 궤적(limit‑cycle)을 찾아내며, 이는 로봇이 스스로 안정적인 보행 패턴을 형성한다는 의미다. 중요한 점은 이 과정이 몇십 번의 시행(‘few‑shot’)만에 수렴한다는 것으로, 전통적인 강화학습이 요구하는 수천~수만 회의 시뮬레이션 대비 획기적인 효율성을 보여준다.
실험 결과는 두 가지 차원에서 검증된다. 첫째, 시뮬레이션에서는 3‑텐던/2‑관절 구조가 다양한 지면 마찰 계수와 무게 변동에도 불구하고, 0.3 m/s 이상의 전진 속도를 유지하면서 에너지 효율을 20 % 이상 향상시켰다. 둘째, 실제 하드웨어(3‑D 프린트 플라스틱 프레임, 탄성 텐던, 서보 모터)에서는 동일한 G2P 프로토콜을 적용했을 때, 초기 베이블링 단계에서 수집된 2 000개의 샘플만으로도 15 분 이내에 안정적인 보행 주기를 달성했다. 또한, 로봇의 무게를 30 % 증가시키거나, 지면에 작은 장애물을 배치했을 때도, 기존 역매핑을 재학습하지 않고도 보상 기반 탐색만으로 새로운 주기 궤적을 빠르게 찾아냈다. 이는 G2P가 ‘모델‑프리’이면서도 ‘적응‑가능’한 제어 프레임워크임을 실증한다.
학문적·산업적 함의는 크다. 생물학적 관점에서 보면, 텐던‑구동 구조는 척추동물의 근육‑힘줄 시스템과 근본적으로 동일하므로, G2P는 동물의 ‘플레이’를 모방한 로봇 학습 메커니즘을 제공한다. 이는 신경과학·발달생물학 분야에서 ‘few‑shot motor learning’의 메커니즘을 탐구하는 새로운 실험 플랫폼이 될 수 있다. 로봇공학적 측면에서는, 복잡한 모델링 없이도 복합 자유도와 비선형 구동을 가진 로봇(예: 소프트 로봇, 바이오모터 기반 로봇)에게 빠른 현장 적응성을 부여한다는 점에서, 차세대 자율 로봇·재난 구조·우주 탐사 로봇 등에 직접 적용 가능하다. 향후 연구에서는 다관절·다텐던 시스템으로 확장하고, 시각·촉각 센서를 통합해 다중 목표(예: 균형 유지·물체 조작)를 동시에 학습하도록 하는 것이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기