휴먼형 로봇을 위한 트래킹·생성 하이브리드 제어 프레임워크 ‘헤라클레스’
헤라클레스는 로봇의 실시간 상태를 조건으로 하는 확산 기반 미들웨어를 도입해, 상태가 목표 궤적에 가깝다면 거의 변형 없는 트래킹을 수행하고, 큰 편차가 발생하면 자연스러운 회복 동작을 생성한다. 이를 통해 기존 트래킹 기반 컨트롤러가 보이는 강인성 부족과 비인간적인 붕괴를 극복하고, 고정밀 실행과 인간 수준의 적응성을 동시에 달성한다.
저자: Zelin Tao, Zeran Su, Peiran Liu
본 논문은 인간의 운동 제어가 목표 수행과 외란 회복을 연속적인 스펙트럼으로 수행한다는 생리학적 사실을 로봇 제어에 적용하고자 한다. 기존의 일반 목적 인간형 로봇 제어기들은 대부분 **참조 궤적을 최소화하는 트래킹** 방식을 채택해, 높은 정확도와 다양한 동작을 제로‑샷으로 재현하는 데 성공했지만, 큰 외란이 가해질 경우 목표와의 편차를 급격히 줄이려는 과정에서 비현실적인 토크를 발생시키고, 결국 비인간적인 붕괴를 초래한다. 반대로, 순수 생성 모델(예: 대규모 모션 디퓨전, 행동 기반 모델)은 인간과 유사한 회복 동작을 생성하지만, 물리 제약을 무시한 순수 kinematic 출력이라 실제 로봇에 적용하면 불안정하거나 낙하한다.
**헤라클레스**는 이러한 두 접근법의 장단점을 보완하기 위해 **상태조건부 확산 미들웨어**를 제안한다. 시스템 구조는 크게 세 부분으로 나뉜다.
1. **고수준 의도 생성기**: 사용자가 정의한 목표 궤적(관절 각도, 몸통 위치 등)을 제공한다. 이는 기존 트래킹 기반 컨트롤러와 동일하게 동작한다.
2. **상태조건부 확산 미들웨어**: 로봇의 현재 물리 상태(관절 위치·속도·접촉력 등)를 실시간으로 인코딩하고, 이를 확산 모델의 조건으로 사용한다. 확산 과정은 노이즈 스케줄링을 통해 현재 상태 편차에 따라 출력 변형 정도를 조절한다. 상태가 목표에 가깝다면 확산은 거의 identity mapping에 수렴해 원본 목표를 그대로 전달한다(정밀 트래킹). 상태 편차가 크면 확산은 사전 학습된 인간 회복 행동 분포에서 샘플링해, 자연스러운 회복 궤적을 생성한다(생성적 회복).
3. **저주파 물리 트래커**: 확산 미들웨어가 출력한 (가능하면 원본, 변형된) 목표를 받아 물리 엔진 기반의 고주파 제어 정책에 전달한다. 이 트래커는 기존 DeepMimic·GMT 계열의 강화학습 정책을 사용해, 토크 한계와 접촉 제약을 만족하도록 목표를 실현한다.
핵심 아이디어는 **명시적 모드 전환 없이 연속적인 제어 전이**를 구현한다는 점이다. 상태조건부 인코더가 편차를 연속적인 스칼라(또는 벡터)로 변환하고, 이를 확산 모델의 노이즈 레벨에 매핑함으로써 “soft switch”를 만든다. 따라서 급격한 전이로 인한 진동이나 불안정성을 최소화한다.
학습 단계에서는 대규모 인간 MoCap 데이터와 물리 시뮬레이션을 결합해 확산 모델을 사전 학습한다. 특히, 회복 동작에 초점을 맞춘 데이터(예: 넘어짐, 푸시, 미끄러짐 상황)를 별도 라벨링해 다중 모드의 행동 분포를 학습한다. 이후 실제 로봇에 적용할 때는 고주파 트래커와 저주파 확산 미들웨어를 각각 별도 스레드에서 실행해, 전체 제어 루프가 1 kHz 수준으로 유지된다.
**실험**은 시뮬레이션과 실제 하드웨어(30 kg급 인간형 로봇)에서 수행되었다. 외란 강도는 0 N부터 300 N까지 다양하게 적용했으며, 기존 트래커 기반 시스템은 150 N 이상에서 비인간적인 토크와 붕괴를 보였다. 반면 헤라클레스는 300 N까지도 자연스러운 회복 동작을 생성해 95 % 이상의 성공률을 기록했다. 정밀 트래킹 테스트에서는 평균 위치 오차 2 cm, 관절 각도 오차 3° 이하로 기존 방법과 동등하거나 약간 개선된 성능을 보였다. 또한, 회복 동작의 인간성 평가에서 참가자들은 헤라클레스의 동작을 “인간과 거의 구분이 안 된다”고 평가했다.
**한계**로는 (1) 확산 모델이 대규모 사전 학습 데이터에 크게 의존해 데이터 편향이 제어 성능에 영향을 미칠 수 있다. (2) 현재 구현은 주로 균형 회복에 초점을 맞추어 물체 조작 등 복합 접촉 상황에서는 충분히 일반화되지 않는다. (3) 실시간 연산이 GPU에 의존하므로 경량화와 전용 하드웨어 가속이 필요하다.
**향후 연구**는 (i) 멀티모달 조건(시각, 촉각 등)을 포함한 확산 모델 확장, (ii) 물체 조작과 같은 복합 행동을 위한 계층적 확산 구조, (iii) 경량화된 확산 네트워크와 온‑디바이스 실행을 통한 완전 실시간 제어 구현을 제시한다.
결론적으로, 헤라클레스는 **정밀 트래킹과 인간 수준의 회복성을 동시에 만족**하는 새로운 제어 패러다임을 제시하며, 인간형 로봇이 복잡하고 예측 불가능한 실제 환경에서 안정적으로 동작할 수 있는 기반을 마련한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기