동적 모델 없이 시간 최적 경로 추적을 위한 강화학습 기반 로봇 제어

본 논문은 사전 모델링 없이 로봇 매니퓰레이터의 시간 최적 경로를 찾기 위해 SARSA 기반 강화학습 알고리즘(TOPTO‑SARSA)을 제안한다. 두 단계로 구성된 학습 절차를 통해 먼저 운동학적 제약을 만족하는 안전 경로를 확보하고, 이후 실제 로봇과의 상호작용을 통해 토크 제한을 만족하면서 시간 최적의 궤적을 도출한다. 6‑DOF 로봇 실험을 통해 제안 방법의 실현 가능성과 성능 향상을 입증하였다.

저자: Jiadong Xiao, Lin Li, Tie Zhang

본 논문은 산업용 로봇 매니퓰레이터가 사전 식별된 동적 모델 없이도 시간 최적 경로를 추적할 수 있도록 하는 새로운 강화학습 프레임워크를 제시한다. 서론에서는 TOPT 문제의 중요성을 강조하고, 기존 방법이 동적 모델 정확도에 크게 의존한다는 점을 지적한다. 모델‑플랜트 불일치가 발생하면 설계된 토크가 실제 토크 한계를 초과하거나 궤적 자체가 비실현 가능해지는 위험이 존재한다. 이러한 문제를 해결하기 위해 저자는 모델‑프리 접근법을 채택한다. 관련 연구에서는 모델‑기반 최적 제어, 학습 기반 제어, 그리고 강화학습을 이용한 궤적 최적화가 다루어졌다. 그러나 대부분은 모델을 전제로 하거나, 학습 단계에서 안전성을 보장하지 못한다는 한계가 있었다. 본 연구는 이러한 격차를 메우기 위해 두 단계 학습 절차를 설계한다. 문제 정의에서는 로봇의 경로를 파라미터화된 진행률 s∈

동적 모델 없이 시간 최적 경로 추적을 위한 강화학습 기반 로봇 제어

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기