다중 로봇 행동 순서 최적화를 위한 강화학습 프레임워크

본 논문은 여러 개별 행동과 그에 대응하는 파라미터화된 컨트롤러를 보유한 다중 로봇 시스템에서, 단일 행동만으로는 해결할 수 없는 복합 임무를 수행하기 위한 최적 행동 순서를 학습하는 방법을 제시한다. 행동 전환 시점을 에너지 임계값으로 정의하고, Q‑learning으로 행동 선택을, 온라인 그래디언트 하강법으로 컨트롤러 파라미터 튜닝을 동시에 수행한다. 실험은 차동 구동 로봇 팀을 이용해 호위와 물체 조작 두 가지 시나리오에서 검증하였다.

저자: Pietro Pierpaoli, Thinh T. Doan, Justin Romberg

본 논문은 복합적인 임무를 수행하기 위해 다중 로봇 시스템이 여러 사전 정의된 행동(behaviors)과 그에 대응하는 파라미터화된 컨트롤러를 순차적으로 적용해야 하는 문제를 다룬다. 기존 연구에서는 단일 행동을 기반으로 한 분산 제어가 주로 다루어졌으며, 행동을 조합하는 방법은 형식적 방법론(예: FSM, Petri Net)이나 경로 계획에 의존했다. 그러나 실제 환경에서는 목표 위치, 물체 물성, 외부 방해 등 중요한 정보가 사전에 알려지지 않거나 시간에 따라 변한다. 따라서 로봇들은 행동을 선택하면서 동시에 미지의 정보를 학습해야 한다. 논문은 먼저 행동을 5‑튜플 B = (w, Θ, v, Φ, G) 으로 정의하고, 각 행동마다 엣지 가중치 w (상호작용 강도), 상태 피드백 v (자체 목표), 파라미터 집합 Θ, Φ, 그리고 통신 그래프 G 을 포함한다. 로봇들의 집합 x ∈ℝ^{2N} 에 대해 제어 입력 u_i = −∑_{j∈N_i} w(x_i,x_j,θ)(x_i−x_j)+v(x_i,φ) 로 표현되며, 이는 전체 에너지 E(x) 의 음의 기울기로 해석된다. 임무는 시간 구간

다중 로봇 행동 순서 최적화를 위한 강화학습 프레임워크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기