인간처럼 움직이는 팔을 위한 경량 역기구학
초록
본 논문은 전통적인 엔드 이펙터(EE) 중심 IK가 생성하는 비인간적인 팔 자세를 개선하고자, 대규모 인간 동작 데이터를 로봇에 리타게팅하여 학습한 팔꿈치 사전 모델을 제안한다. FiLM‑modulated Spatio‑Temporal Attention 네트워크(FiSTA)를 통해 짧은 EE‑팔꿈치 히스토리를 입력으로 다음 스텝의 인간‑유사 팔꿈치 포즈를 예측하고, 이를 기존 레벤버그‑마르쿠르트 수치 IK에 작은 잔차 비용으로 추가한다. 실험 결과 시뮬레이션에서 위치·방향 오차가 평균 30 % 이상, 가장 어려운 궤적에서는 40 % 이상 감소했으며, 실제 로봇 텔레옵레이션에서도 인간‑같은 움직임이 확인되었다.
상세 분석
HL‑IK는 인간‑로봇 팔의 주요 자유도 차이를 “팔꿈치 스위블”이라는 하나의 핵심 자유도로 축소한 뒤, 이 자유도를 인간 동작 데이터 기반 사전으로 보강한다는 점에서 혁신적이다. 데이터 수집 단계에서는 AMASS 데이터셋을 로봇의 URDF와 일치하도록 리타게팅하고, 어깨‑팔꿈치‑EE의 상대 변환을 추출해 4개의 SE(3) 포즈를 학습 입력으로 만든다. FiSTA 네트워크는 (1) 5프레임 히스토리를 GRU로 인코딩해 시간적 특징을 추출하고, (2) 최신 프레임의 EE와 팔꿈치 포즈를 토큰화해 경량 self‑attention으로 공간적 상관관계를 모델링한다. 목표 EE 포즈는 FiLM 레이어를 통해 시간 특징에 스케일·시프트를 적용, 목표‑조건화된 동적 표현을 만든다. 마지막에 MLP가 두 스트림을 결합해 7차원(위치+쿼터니언) 팔꿈치 포즈를 출력한다.
이 예측값은 레벤버그‑마르쿠르트 최적화에 “팔꿈치 포즈 비용” c_elbow으로 삽입된다. 전체 비용은 EE 포즈 비용 c_ee, 팔꿈치 비용 c_elbow, 그리고 관절 스무스 비용 c_smooth을 가중합한 벡터이며, 각 비용은 SE(3) 로그를 이용해 6차원 트위스트 형태로 정규화된다. LM 단계에서 잔차와 Jacobian을 동시에 고려해 빠른 수렴을 달성하면서도, 팔꿈치 비용이 작은 가중치로 추가돼 EE 정확도는 유지하고 인간‑유사 자세를 유도한다.
실험에서는 세 개의 공개 인간 동작 데이터(ACCAD, CMU, SFU)를 사용해 183 k 스텝을 시뮬레이션했으며, FiSTA는 MSE 0.00178로 다른 LSTM·Transformer·MLP 대비 10 % 이상 우수했다. 히스토리 길이 5가 최적임을 확인했으며, 공간·시간·FiLM 모듈을 각각 제거했을 때 손실이 2–6 % 상승한다는 ablation 결과는 각 구성 요소의 기여도를 명확히 보여준다. 런타임 측면에서는 RTX 4070 기준 전체 파이프라인이 7.08 ms/스텝, 즉 141 Hz 제어 주파수를 만족한다. 실제 로봇(다른 플랫폼) 텔레옵레이션 실험에서도 인간 팔과 시각적으로 높은 유사성을 확보했으며, 기존 EE‑전용 IK와 비교해 팔꿈치 위치·방향 오차가 각각 30 %·35 % 평균, 최악 상황에서는 42 %·47 %까지 감소했다.
핵심 인사이트는 (1) 인간 동작을 로봇에 직접 매핑하는 대규모 사전 학습이 가능하다는 점, (2) 목표‑조건화된 FiLM 모듈이 짧은 히스토리만으로도 정확한 팔꿈치 예측을 가능하게 한다는 점, (3) 기존 수치 IK에 경량 잔차 비용만 추가하면 플랫폼 독립적으로 인간‑같은 자세를 실시간으로 얻을 수 있다는 점이다. 이는 인간‑로봇 협업, 텔레프레즌스, 그리고 인간 친화적 서비스 로봇에 바로 적용 가능한 실용적 프레임워크라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기