- 저자: Haozhi Qi, Yen-Jen Wang, Toru Lin, Brent Yi, Yi Ma, Koushil Sreenath, Jitendra Malik
인간형 로봇이 수행할 수 있는 복잡한 작업에 대해, 이 논문은 전체 몸통 조정과 적응적인 움직임을 통합하는 방법론을 제시한다. 특히, 학습 과정에서 다중 모드 행동을 포착하고 효율적으로 제어하기 위한 새로운 정책인 Choice Policy를 소개하며, 이는 신경망의 단일 순방향 패스로 빠른 추론을 가능하게 한다.
1. **모듈식 원격 조작 인터페이스:** 이 논문은 인간형 로봇에 대한 전체 몸통 제어를 단순화하기 위해 모듈식 원격 조작 인터페이스를 개발하였다. 이를 통해 사용자는 특정 기술을 선택하고 전환할 수 있다. 예를 들어, VR 컨트롤러의 자세 변화는 직접적으로 팔의 종말 효과자 자세로 매핑되며, 이는 작업자의 피로감을 줄이고 정확성을 높인다.
# 서론
인간형 로봇은 인간 중심의 비정형 환경에서 복잡한 작업을 수행할 잠재력을 가지고 있습니다. 그러기 위해서는 머리, 손, 몸통을 조정하여 적극적으로 물체를 찾고, 위치하고, 잡아서 조작해야 합니다. 그러나 이러한 유연성과 민첩성을 달성하는 것은 여전히 매우 어려운 과제입니다. 이에 필요한 전체 몸통의 원활한 조정 및 주행과 조작의 긴밀한 통합이 요구됩니다.
로봇 기술을 습득하는 널리 사용되는 방법 중 하나는 시연에서 학습(LfD)입니다. 이 접근법은 일반적으로 카메라, 동작 캡처 또는 가상현실(VR) 인터페이스를 통해 인간의 원격 조종자가 로봇의 팔과 손을 제어하여 전문가의 궤적을 수집하는 것을 포함합니다. 그러나 이 접근법에는 여러 가지 도전 과제가 있습니다. 첫째, 모든 구성 요소를 통합하는 것은 어렵습니다: 일부 시스템은 각각 눈-손 조정, 상하체 조정 또는 허리 움직임을 개별적으로 포함하지만, 이를 모두 결합하면 복잡성이 증가합니다. 둘째, 기존의 LfD 방법론들은 효율성과 표현력 사이에서 타협점을 맞닥뜨립니다: 이들은 반복 계산에 의존하여 실제 주행 조작의 실시간 요구사항을 충족하기에는 너무 느리거나, 인간 시연의 다중 모드 특성을 포착하는 데 부족한 아키텍처를 사용합니다.
이 논문에서는 합동된 인간형 머리, 손 및 발 움직임의 고질적인 시연을 수집하기 위한 시스템을 제시합니다. 이 시스템을 활용하여 복잡한 작업에 대한 고품질 실세계 데이터를 수집할 수 있습니다. 그런 다음 이러한 데이터셋에서 자율 기술을 학습하는 새로운 프레임워크를 소개합니다. 우리의 방법, Choice Policy는 확산 모델이나 사전 토큰화 없이 시연에 존재하는 다중 모드 행동을 포착합니다. 이 접근법은 신경망의 단일 순방향 패스를 통해 효율적인 전체 몸통 제어를 가능하게 합니다.
원격 조작 인터페이스: 인간형 로봇의 전체 몸통 통제의 복잡성을 극복하기 위해, 우리의 시스템은 직관적이고 다목적을 위한 모듈식 원격 조작 인터페이스를 개발했습니다. 운영자가 모든 자유도를 동시에 관리해야 하는 대신, 우리의 시스템은 제어를 기능적인 하위 모듈로 분해합니다. 이 모듈성은 로봇의 표현 범위를 제한하지 않으며, 사용자가 고수준 작업 논리를 집중할 수 있는 강력한 추상화를 제공합니다.
구체적으로 우리의 시스템은 VR 컨트롤러를 주요 입력 장치로 활용합니다. 컨트롤러의 자세 변화는 직접 팔의 종말 효과자 자세에 매핑됩니다. 컨트롤러 버튼은 원자적 그립 유형을 관리하는 데 사용되며, 네 개의 엄지가 아닌 손가락은 단일 그룹으로 작동하고, 엄지는 독립적으로 움직입니다. 눈-손 조정을 위해 사용자는 머리가 왼쪽 또는 오른쪽 손을 따라가는 모드를 활성화할 수 있습니다. 마지막으로, 사용자는 시뮬레이션에서 강화 학습(RL)로 훈련된 기본 정책을 활용하여 조이스틱으로 주행 명령을 내릴 수 있습니다.
이 설계는 여러 가지 장점을 제공합니다. 첫째, 원격 조종사는 특정 기술을 선택하고 전환할 수 있으므로 로봇의 전체 자세를 지속적으로 모방하는 대신 작업자의 피로감을 크게 줄일 수 있습니다. 둘째, 손 움직임을 정밀 그립과 파워 그립으로 단순화함으로써 시스템은 다양한 조작 기술을 포함하면서도 데이터 수집을 현저히 덜 요구합니다. 또한 이 모듈식 추상화는 제한적이지 않습니다. 인터페이스는 확장 가능하도록 설계되어 추가 하위 모듈 형태로 더 복잡한 기술, 예를 들어 손가락 걸음 등을 통합할 수 있습니다.
정책 학습: 수집된 시연은 원격 조종사의 변동과 선호도 때문에 본래 다중 모드입니다. 확산 정책은 일반적인 해결책이지만, 그 추론 속도는 종종 실시간 반응형 조작에 부적합합니다. 이러한 방법들은 자주 추가 최적화 또는 빠른 응답성과 매끄러운 움직임 사이의 타협점을 요구합니다. 행동 클론은 빠른 제어를 달성할 수 있지만 종종 다중 모드 조작을 포착하는 데 어려움이 있습니다. 이를 해결하기 위해, 우리는 Choice Policy를 제안합니다. 이 접근법은 주어진 관찰에 대해 여러 예측을 생성하고 신경망의 단일 순방향 패스로 효율성을 유지하면서 다중 모드를 모델링할 수 있는 능력을 결합합니다.
추론 중 Choice Policy는 $`K`$ 후보 액션 시퀀스를 출력하며 각각에 점수가 부여됩니다. 가장 높은 점수를 가진 행동이 실행을 위해 선택됩니다. 학습 중 점수 네트워크는 제안과 실제 동작 사이의 겹침을 예측하도록 감독되며, 이는 음의 평균 제곱 오차(MSE)로 측정됩니다. 행동 제안 네트워크는 최소 MSE를 가진 제안만 역전파를 통해 업데이트하는 승자 독식 방식으로 학습됩니다. 이를 통해 정책은 데이터셋 내의 다중 모드 동작을 포착하면서도 빠른 추론 속도를 유지할 수 있습니다.
결과: 우리는 인간형 로봇에 대한 조정된 제어의 중요성을 강조하는 두 가지 작업에서 우리의 접근법을 평가했습니다: (1) 세척기 로딩과 (2) 화이트보드 닦기를 위한 전체 몸통 주행-조작. 세척기 로딩 작업에서는 로봇의 머리가 손을 통해 물체를 전달하는 위치에서 삽입 위치로 활성적으로 시선을 이동해야 합니다. 주행-조작 작업에서는 로봇이 불확실한 초기 및 최종 위치로 인해 발생하는 오류에 대응하면서도 안정적인 걷기 패턴을 유지해야 합니다.
우리는 손-눈 조정과 제안된 Choice Policy 알고리즘의 효과를 연구하기 위해 포괄적인 실세계 실험을 수행했습니다. 우리의 결과는 Choice Policy가 확산 정책 및 행동 클론에 비해 지속적으로 우수한 성능을 보여주었다는 것을 나타냅니다. 우리는 학습된 점수 기반 선택이 기본 라인보다 훨씬 효과적임을 입증하기 위해 약화 연구를 수행했습니다.
관련 연구
인간형 로봇의 주행과 조작에 대한 연구가 수십 년 동안 꾸준히 진행되어 왔으며, 자세한 개요는 최근의 리뷰 논문을 참조하십시오. 이 섹션에서는 인간형 원격 조작 및 정책 학습에 관한 기존 문헌과 우리의 접근법을 비교하는 데 중점을 둡니다.
인간형 조작
인간형 로봇은 인간과 유사한 형태를 공유하기 때문에, 일반적인 전략은 키포인트 매칭을 통해 인간의 움직임을 로봇으로 재타겟팅하는 것입니다. 이 영역은 최근 몇 년 동안 크게 발전했습니다. ExBody는 상체 움직임 추적과 하체 안정성 제어를 분리하여 표현력 있는 로봇 춤을 보여주었습니다. 이후 연구에서는 민첩한 인간형 움직임, 극단적인 밸런스 움직임 및 더 일반적인 참조 추적 등을 보여주는 동작 추적 능력을 더욱 향상시켰습니다.
컴퓨터 비전을 이용한 인간 자세 추정의 발전과 결합하여 이러한 동작 추적 능력은 인간형 로봇 원격 조작을 위한 다목적 인터페이스를 제공합니다. H2O, OmniH2O 및 HumanPlus와 같은 초기 연구는 인간 키포인트를 입력으로 사용하고 이를 시뮬레이션에서 실세계로의 전달을 통해 학습된 물리적으로 타당한 로봇 제어 명령으로 변환합니다. TWIST는 동작 캡처 장치를 이용하여 키포인트 추정 정확도를 개선하였으며, Sonic은 부드럽고 견고한 행동을 위한 시스템 수준의 개선 사항을 보여주었습니다.
그러나 재타겟팅 오류로 인해 키포인트 참조 추적만으로 조작 작업을 원격 조종하는 것은 여전히 어려움이 있습니다. 최근 연구는 가상현실(VR) 장치를 이용하여 전체 몸통 역동학을 적용하여 인간형 로봇을 제어하는 방법을 탐색하고 있습니다. 그러나 모든 자유도를 동시에 제어하는 것은 여전히 도전적입니다. 대부분의 기존 시스템은 상체만 또는 능동적인 머리 제어가 없는 것을 조작합니다. 이러한 한계는 데이터 수집을 어렵게 하며, 머리, 손, 팔 및 다리를 조정할 수 있는 자율 정책을 학습하는 것은 여전히 개방된 문제입니다. 예를 들어 Open-Television은 상체만의 조작 정책을 학습하고 HumanPlus는 분리된 상하체 움직임을 학습합니다. AMO는 전체 몸통 조작을 위한 자율 정책을 보여주지만, 그들의 실험은 균형과 제어가 덜 요구되는 반인간형 Unitree G-1 플랫폼을 사용합니다. HOMIE도 상체 원격 조종에서 주행을 분리하지만, 단순한 그리퍼를 사용하고 이진 조작 또는 통합된 주행-조작이 없는 더 복잡하지 않은 작업을 보여줍니다.
반면에 우리의 접근법은 모듈식 하위 기술로 조정을 분해하여 전체 몸통 원격 조작을 제공합니다. 이를 통해 원격 조작과 데이터 수집이 단순화되며, 결과적으로 고질적인 시연이 가능해져서 우리는 전신 조작을 달성할 수 있는 자율 정책을 학습할 수 있습니다.
정책 표현
모방 학습은 전문가의 시연에서 기술을 습득하기 위한 널리 사용되는 접근법입니다. 이 패러다임에는 단순한 행동 클론 및 암시적 행동 클론과 같은 방법이 포함됩니다. 그러나 인간 원격 조작의 특성상 다양한 운영자가 서로 다른 선호도를 가지고 있음으로써 다중 모드는 중앙적인 도전 과제입니다. 특히, 단일 관찰에 대해 여러 전문가 동작이 유효할 수 있습니다. 확산 기반 정책은 행동 분포를 모델링하여 이를 해결하나, 샘플링 기반 추론은 종종 인간형 제어의 실시간 요구사항을 충족하기에 너무 느립니다. 전통적인 행동 클론은 단일 순방향 패스로 빠른 추론을 제공하지만 종종 다중 모드 데이터를 평균으로 압축하여 자주 부적합하거나 불안정한 동작을 초래합니다.
최근 연구는 이 한계를 완화하기 위해 행동 공간을 이산화하거나 토큰화된 표현을 도입하려고 시도했습니다. 그러나 이러한 방법들은 아직 고차원 자유도의 인간형 로봇에서 긴밀한 전체 몸통 조정이 필요한 강력한 성능을 입증하지 못하였습니다. 반면에 우리의 접근법은 여러 제안을 생성하고 이를 효율적으로 선택하는 프레임워크를 제공합니다. 이 방법론은 복잡한 조작 작업에 필요한 다중 모드 동작을 포착하면서도 빠른 추론을 유지합니다.
모듈식 원격 조작 인터페이스
우리의 원격 조작 시스템은 Figure 1에서 설명됩니다. 정밀 조작을 위한 인간형 로봇의 원격 조작은 고차원 행동 공간에서 전체 몸통 조정이 필요하기 때문에 본질적으로 어려운 작업입니다. 제어를 단순화하기 위해, 우리는 인간형 조작을 네 가지 모듈식 기술로 분해합니다: 1) 눈-손 조정, 2) 손 수준의 원자적 그립, 3) 팔 종말 효과자 추적 및 4) 방향성 걷기와 서 있는 것. 우리의 상체 설계는 HATO에서 영감을 받았지만, 머리 제어 및 하체 주행에 대한 새로운 기능을 도입하여 통합된 주행-조작을 가능하게 합니다. 이러한 모듈은 데이터 수집을 단순화하지만, 결국 Section 4에서 설명한 대로 단일 데이터 기반 정책으로 통합됩니다.
팔 제어: HATO와 마찬가지로 팔 제어는 트리거 버튼이 눌릴 때만 활성화됩니다. 이를 필요에 따른 활성화라고 부릅니다: 각 제어 단계에서 VR 컨트롤러의 상대 자세 변화는 로봇 프레임으로 변환되며, 그로부터 절대 종말 효과자 자세가 계산됩니다. 우리는 역동학을 사용하여 목표 관절 위치를 해결하고 이를 인간형 로봇에게 전송합니다.
이 필요에 따른 활성화는 대규모 정밀 시연 수집에 중요합니다. 많은 복잡한 작업은 두 팔이 순차적으로 작동해야 하며 동시에 작동하지 않습니다. 우리의 설계는 한 팔을 고정 상태로 유지하면서 다른 팔이 작동할 수 있도록 합니다. 이는 여분의 팔이 중간에 표류하거나 부유하는 것을 방지하여 원격 조종사의 피로감을 줄이고 불필요한 로봇 움직임을 피합니다. 또한 필요에 따른 활성화는 인간형 로봇이 위치나 방향에서 큰 자세 변화를 달성할 수 있게 합니다. 인간 운영자는 제어기를 반복적으로 재설정하고 확장하여 작업 공간의 중심을 재설정할 수 있습니다. 이로 인해 전체 움직임을 물리적으로 재현하지 않고도 더 긴 움직임이 가능합니다. 이러한 선택적 활성화는 산업용 팔 원격 조작에 일반적이지만, 인간형 플랫폼에는 거의 채택되지 않았습니다.
손 제어: 네 개의 엄지가 아닌 손가락은 그립 버튼을 통해 단일 그룹으로 움직이고, 조이스틱은 독립적으로 엄지를 제어합니다. 그립 버튼과 조이스틱 모두 연속적인 신호를 제공하며 이는 손가락 작동에 매핑됩니다. 이를 통해 운영자는 미세한 동작을 수행하고 그립의 긴밀도를 조정할 수 있습니다. 이러한 차원 축소에도 불구하고, 기본적인 그립 분류학은 유지됩니다; 예를 들어 파워 그립, 정밀 그립 및 평평화가 포함됩니다. 우리는 현재 이러한 원자적 프리미티브를 사용하지만, 이 프레임워크는 제한적이지 않습니다. 이러한 기술은 더 복잡한 동작으로 확장될 수 있습니다. 예를 들어 손가락 걸음은 추가 컨트롤러 입력을 특정 손가락 조정 패턴에 매핑하여 달성할 수 있습니다.
이 설계는 고질적인 데이터 수집을 위한 두 가지 핵심 장점을 제공합니다. 첫째, 제어를 단순화하는 데 도움이 됩니다. 정확한 손가락 자세를 유지하는 것보다 안정적인 버튼 클릭을 유지하는 것이 훨씬 쉽습니다. 둘째, 정밀도를 개선합니다. 고차원 손가락 추적은 종종 불안정하고 무른 움직임을 생성하지만, 우리의 축소 매핑은 부드럽고 안정적인 그립을 제공합니다.
눈-손 조정: 대부분의 조작 작업은 손 중심입니다. 이들은 머리가 활성화된 손을 보는 시야를 유지해야 합니다. 예를 들어, 로봇이 세척기를 로딩하고 접시를 식기함에 삽입할 때, 그립이 올바르게 맞춰졌는지 확인하기 위해 손을 계속 바라봐야 합니다. 이러한 관찰을 근거로 우리는 버튼 트리거 추적 모드를 구현했습니다. 버튼을 누르면 머리는 왼쪽 또는 오른쪽 손을 따라가도록 전환됩니다.