계층적 비율 모델을 이용한 로봇 동작 생성
초록
본 논문은 모션 프리미티브를 재활용하고 비율 기반 합성을 통해 장기·복합 작업을 효율적으로 수행하는 계층적 모방 학습 프레임워크를 제안한다. 상위 레이어는 장기 계획을 담당하고, 하위 레이어는 개별 프리미티브를 학습한다. 비율을 학습 기반, 샘플링 기반, 재생 기반으로 결정하는 세 가지 변형을 도입해 데이터 효율성과 적응성을 검증하였다. 실제 로봇 피킹‑앤‑플레이스 실험에서 제안 모델들은 기존 프리미티브 집합에 포함되지 않은 복합 동작을 성공적으로 생성했으며, 특히 샘플링 및 재생 기반 모델이 안정성과 적응성에서 우수함을 보였다.
상세 분석
이 연구는 로봇 모방 학습에서 데이터 요구량과 재학습 비용을 감소시키기 위해 ‘모션 프리미티브 + 비율 합성’이라는 새로운 패러다임을 제시한다. 기존의 계층적 모델은 상·하위 레이어 모두를 특정 작업에 맞춰 학습해야 했지만, 본 논문은 하위 레이어를 작업‑불변적인 프리미티브 학습에 집중시키고, 상위 레이어는 프리미티브들의 가중치를 결정하는 역할만 수행하도록 설계하였다. 비율 결정 방식은 세 가지로 구분된다. 첫 번째인 학습 기반 비율 모델은 LSTM 기반 상위 레이어가 장기 플래닝과 동시에 비율을 출력한다. 여기서 비율은 소프트맥스를 통해 정규화되며, 하위 레이어의 MLP 출력과 가중 평균을 취해 최종 제어 명령을 만든다. 두 번째인 샘플링 기반 모델은 MC‑MPC와 유사하게 상위 레이어가 미래 팔로워 상태를 예측하고, 하위 레이어는 이 예측값에 노이즈를 추가해 다수의 샘플을 생성한다. 각 샘플은 각 관절 각도·속도·토크에 대한 MSE 기반 비용 함수로 평가되고, 교차 엔트로피 가중 평균을 통해 최적 입력을 도출한다. 이 과정에서 비율을 명시적으로 학습하지 않으며, 샘플링 과정 자체가 비율을 암묵적으로 추정한다. 세 번째인 재생 기반 모델은 상위 레이어를 사전 수집된 실제 동작 데이터로 대체한다. 즉, 상위 레이어가 제공하는 목표 궤적과 하위 레이어가 생성한 샘플을 비용 함수로 비교해 가중 평균을 수행한다. 이 방식은 상위 레이어 재학습이 필요 없으므로 새로운 작업에 대한 빠른 적응이 가능하다. 실험에서는 5가지 방향·위치 조합으로 50개의 프리미티브를 수집하고, 두 가지 테스트 작업(기존 방향과 프리미티브에 포함되지 않은 복합 두 물체 이동)을 수행하였다. 결과는 학습 기반 모델이 프리미티브 수가 많아질수록 비율 추정에 어려움을 겪는 반면, 샘플링 및 재생 기반 모델은 비용 기반 선택 메커니즘 덕분에 더 안정적인 궤적을 생성함을 보여준다. 또한 하위 레이어 모델을 여러 작업에 공유함으로써 전체 학습 비용을 크게 절감할 수 있다. 이 논문은 MoE(전문가 혼합)와 MC‑MPC를 결합한 새로운 구조를 실제 로봇에 적용한 최초 사례 중 하나이며, 프리미티브 기반 재사용과 비율 기반 합성이라는 두 축을 통해 장기·복합 작업에 대한 데이터 효율성과 적응성을 동시에 달성한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기