인간 동작 데이터만으로 보행 제어와 생체역학을 설명할 수 있는가
초록
본 연구는 강화학습 기반 모션 모방 학습(RL‑IL)에서 발‑지면 상호작용 정보를 보상에 추가하면 관절 운동학은 물론 관절 역학까지 실제 인버스 다이내믹스와 일치하도록 개선될 수 있음을 실험적으로 입증한다. 순수 모션 모방(MOIL)만으로는 걸음걸이의 관절 모멘트가 비현실적이며, GRF와 CoP 보상을 포함한 KAIL(Kinetics‑Aware Imitation Learning) 접근법이 물리적 일관성을 크게 향상시킨다.
상세 분석
이 논문은 인간 보행을 시뮬레이션하기 위한 강화학습 기반 모방 학습 프레임워크를 두 가지 축으로 비교한다. 첫 번째는 전통적인 모션‑온리(MOIL) 접근법으로, 관절 각도, 발 위치, 몸통 자세 등 순수 운동학적 목표만을 보상에 포함한다. 두 번째는 KAIL이라 명명한 확장형으로, 기존 운동학 보상에 더해 발‑지면 접촉력(GRF)과 압력 중심(CoP) 정보를 보상에 통합한다.
핵심 기술적 요소는 다음과 같다.
-
동역학 모델링: MuJoCo 기반 부동식(floating‑base) 인간 모델을 사용해 17 자유도(3 DoF 골반 위치, 4 DoF 골반 자세, 3 DoF 고관절·1 DoF 무릎·3 DoF 발목)로 구성하고, 발은 4개의 접촉점이 있는 박스 형태로 구현하였다. 접촉은 하모닉 제약(Jc)과 접촉 마진 ε, 시간 상수 τ, 감쇠 비 c 로 부드럽게 처리한다.
-
정책 구조: PPO(Proximal Policy Optimization)를 이용해 Gaussian stochastic actor와 value network를 각각 2‑layer ReLU(512‑256) 구조로 설계했고, 행동은 목표 관절 각도 ψ_eq와 잔류 와인드 ξ 로 구성한다. 관절 토크는 임피던스 제어 τ = −Kp(ψ − ψ_eq) − Kd·ψ̇ 로 계산한다.
-
보상 설계:
- 운동학 보상(Rk): 관절 포즈(Rp), 말단 위치(Ree), 몸통 자세(Rrp), 몸통 속도(Rrv), 잔류 와인드 정규화(Rvf) 등 5가지 가중치 합으로 정의한다.
- 동역학 보상(Rdyn): GRF 보상(Rgrf)와 CoP 보상(Rcop)을 각각 제곱 오차 형태로 정의하고, 가중치 w_grf, w_cop 로 조절한다. GRF 보상은 전·후방(AP)와 수직(V) 성분을 모두 포함한다.
-
실험 설계: 한 명의 건강한 남성 피험자를 대상으로 1.2 m/s 보행 데이터를 수집하고, Visual3D를 이용해 인버스 다이내믹스로 관절 모멘트를 추정한다. 동일한 인체 파라미터를 MuJoCo와 Visual3D에 적용해 비교 가능성을 확보하였다.
-
Ablation Study: 사전 학습(700 episode) 후 200 episode 동안 네 가지 조건(Rk만, Rk+Rgrf, Rk+Rcop, 전체 ALL)을 각각 fine‑tune 하여 보상의 영향력을 정량화했다.
주요 결과는 다음과 같다.
- 모든 조건에서 정책은 낙상 없이 전체 보행 사이클을 수행했으며, 운동학 보상 점수는 0.93~0.95 수준으로 거의 동일했다. 이는 운동학 목표만으로도 정확한 관절 궤적을 재현할 수 있음을 보여준다.
- GRF 보상만 추가한 경우 Rgrf 점수가 0.55→0.71로 상승했고, CoP 보상만 추가한 경우 Rcop 점수가 0.41→0.63으로 상승했다. 두 보상을 동시에 적용한 ALL 조건에서는 두 점수가 모두 0.70 이상으로 향상되었다.
- 관절 각도 RMSE는 ALL 조건에서 가장 낮았으며, 특히 무릎 각도에서 6.56° 이하의 오차를 기록했다.
- 외부 힘 측면에서는 시뮬레이션 GRF와 실측 GRF의 복소 피어슨 상관계수(CPCC)가 ALL 조건에서 가장 높았으며, 통계적으로 유의미한 차이를 보였다. CoP 위치 역시 ALL 조건에서 실측과 거의 일치했다.
핵심 인사이트는 다음과 같다.
- 순수 운동학 모방만으로는 관절 토크와 발‑지면 상호작용을 물리적으로 일관되게 재현하지 못한다. 정책은 목표 궤적을 맞추기 위해 비현실적인 접촉력을 만들어낼 여지가 있다.
- GRF와 CoP와 같은 외부 힘 정보를 보상에 포함하면 정책이 물리적 제약을 내재화하게 되어, 인버스 다이내믹스와 비교했을 때 관절 모멘트와 지면 반력 모두 높은 정확도를 달성한다.
- 이러한 kinetic‑aware 보상은 실험실 외부, 예를 들어 웨어러블 센서만으로 수집 가능한 데이터 환경에서도 보다 신뢰할 수 있는 생체역학 추정치를 제공할 가능성을 시사한다.
한계와 향후 과제로는 단일 피험자와 단일 보행 속도에 국한된 실험, 2D(전·후방) GRF만 고려한 점, 그리고 근육 활성도와 같은 내부 역학 변수는 아직 다루지 않았다는 점을 들 수 있다. 향후 연구에서는 다양한 보행 속도·보행 패턴, 다중 피험자 데이터, 그리고 근전도(EMG)와 결합한 multi‑modal 보상을 탐색함으로써 KAIL 프레임워크를 일반화하고, 실제 웨어러블 로봇 제어에 적용하는 길을 모색해야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기