위치 궤적에서 힘 명령을 생성하는 계층형 모방 학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 위치 궤적만으로도 로봇의 접촉 작업에 필요한 힘 명령을 생성할 수 있는 계층형 힘 생성 모방 학습 프레임워크를 제안한다. 상위 레이어는 메모리를 활용해 미래의 관절 각도와 속도를 예측하고, 하위 레이어는 메모리 없이 MLP로 구현해 PID 피드백 제어와 결합함으로써 미지의 궤적에서도 안정적인 힘 제어를 가능하게 한다.

상세 분석

**
이 연구는 접촉‑풍부한 작업에서 흔히 발생하는 “위치 궤적은 쉽게 얻지만, 적절한 힘 명령은 알기 어렵다”는 문제를 해결하고자 한다. 기존의 Vision‑Language‑Action(VLA) 기반 사전학습 모델은 로봇 하드웨어 의존성이 높아 직접 적용이 어려운 점을 지적하고, 대신 위치 궤적을 입력으로 힘 명령을 추정하는 전용 힘 생성 모델을 설계하였다. 핵심은 두 단계의 계층형 구조에 있다.

상위 레이어(메모리 기반): LSTM 등 순환 신경망을 사용해 현재 상태와 과거 정보를 통합, 1~10 스텝 앞선 관절 각도 θ와 각속도 ˙θ를 예측한다. 이 예측값을 “상위‑레이어 궤적”이라 부르며, 이후 하위 레이어에 전달된다.
하위 레이어(메모리리스): MLP를 채택해 메모리를 배제함으로써 피드백 제어 루프 내에서의 불안정성을 방지한다. 입력은 현재 관절 각도·속도·토크와 상위‑레이어가 제공한 10‑스텝 앞선 궤적이다. 출력은 다음 스텝의 상태 ŝₖ₊₁와 행동 âₖ₊₁(관절 각도·속도·토크)이다.

피드백 제어는 하위 레이어가 예측한 상태와 상위 레이어 궤적 사이의 오차를 PID(비례‑적분‑미분) 방식으로 보정한다. 구체적으로, 오차 uₖ₊₁ = Kₚ(θₖ₊₁‑ŝθₖ₊₁)+K_d(˙θₖ₊₁‑ŝ˙θₖ₊₁)+K_i∫(θₜ₊₁‑ŝθₜ₊₁)dt 를 계산하고, 이를 미분·적분해 상위‑레이어 궤적에 재투입한다. 이렇게 하면 하위 레이어가 메모리를 갖는 경우 발생하는 발산 현상을 억제하고, 실시간 오류 보정이 가능해진다.

실험은 CRANE‑X7 7‑DOF 로봇을 이용한 문자 쓰기 작업에 초점을 맞췄다. 양방향 텔레오퍼레이션(리더‑팔로워)으로 수집한 70개의 시연 데이터(56 train, 14 validation)에서 위치와 토크 정보를 확보했으며, 실제 실행 시에는 위치 정보만 사용한다. 네트워크 구조는 LSTM(6 layer, 400 units)와 MLP(7 layer, 400 units)를 각각 구현해 PID 유무에 따른 성능을 비교하였다. 결과는 MLP + PID 조합이 IoU(Intersection‑over‑Union) 지표에서 가장 높은 0.134를 기록, LSTM 기반 모델은 메모리로 인한 피드백 불안정성으로 성능이 저하됨을 보여준다.

핵심 인사이트는 다음과 같다. (1) 힘 생성 모델에 메모리를 포함하면 피드백 제어 루프가 비선형적으로 상호작용해 수렴하지 않는다. (2) 메모리와 피드백 제어를 명확히 분리함으로써, 상위 레이어는 장기 예측을 담당하고 하위 레이어는 단기 보정에 집중할 수 있다. (3) 이렇게 설계된 시스템은 훈련에 사용되지 않은 새로운 위치 궤적에도 강인하게 일반화되어, 실제 로봇 필기와 같은 접촉‑중심 작업에 적용 가능하다.

위치 궤적에서 힘 명령을 생성하는 계층형 모방 학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기