데이터 효율적인 로봇 학습을 위한 가우시안 프로세스 기반 제어

본 논문은 비파라메트릭 가우시안 프로세스(GP) 모델을 이용해 시스템 전이 함수를 확률적으로 학습하고, 모델 불확실성을 장기 계획과 정책 최적화에 명시적으로 통합함으로써 강화학습(RL)의 데이터 효율성을 크게 향상시킨다. 제안된 PILCO 프레임워크는 결정론적 근사 추론과 분석적 정책 그래디언트를 결합해 몇 백 번의 시도만으로도 복잡한 로봇 제어 과제를 성공적으로 학습한다.

저자: Marc Peter Deisenroth, Dieter Fox, Carl Edward Rasmussen

본 논문은 데이터 효율성이 낮은 기존 강화학습(RL) 방법들의 한계를 극복하고자, 시스템 전이 함수를 확률적 비파라메트릭 모델인 가우시안 프로세스(GP)로 학습하고, 이 모델의 불확실성을 장기 계획 및 정책 탐색에 명시적으로 반영하는 프레임워크인 PILCO(Probabilistic Inference for Learning Control)를 제안한다. 1. **서론 및 동기** RL은 일반적으로 수천~수만 번의 시뮬레이션 혹은 실제 시스템 인터랙션을 필요로 하며, 이는 로봇과 같은 실제 시스템에 적용하기에 비현실적이다. 기존의 데이터 효율성을 높이기 위한 접근법은 전문가 시연, 고품질 시뮬레이터, 사전 설계된 정책 등 task‑specific prior knowledge에 의존한다. 본 연구는 이러한 사전 지식 없이도 데이터 자체에서 더 많은 정보를 추출함으로써 학습 속도를 높이고자 한다. 2. **관련 연구** 전통적인 모델 기반 제어는 파라메트릭 모델을 전제로 하며, 모델 오류가 학습 성능을 크게 저하시킨다. 비파라메트릭 회귀(예: 로컬 가중 베이지안 회귀)와 GP 기반 가치 함수 학습 등도 제안되었지만, 대부분 값 함수가 불연속적이거나 고차원에서 계산 비용이 급증한다는 문제를 안고 있다. PILCO는 정책 탐색을 직접 수행함으로써 값 함수의 필요성을 없애고, GP를 이용해 무한히 많은 가능한 동역학 모델에 대해 베이지안 평균을 구한다는 점에서 차별화된다. 3. **모델 학습** 입력으로 상태와 액션을 결합한 벡터 𝑥̃ₜ=

데이터 효율적인 로봇 학습을 위한 가우시안 프로세스 기반 제어

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기