실시간 병렬 모델 기반 강화학습 로봇 제어 아키텍처
초록
본 논문은 모델 기반 강화학습(RL)이 로봇 제어에 적용될 때 요구되는 “샘플 효율성”과 “실시간 행동” 두 가지 조건을 동시에 만족하도록 설계된 새로운 병렬 아키텍처(RT‑MBA)를 제안한다. 샘플 기반 근사 플래닝(MCTS 계열)과 모델 학습·플래닝·행동을 별도 스레드로 분리함으로써, 모델 업데이트와 플래닝이 오래 걸리더라도 로봇은 정해진 제어 주기마다 즉시 행동을 반환한다. 실험에서는 전통적인 순차형 모델 기반 방법과 비교해 샘플 효율성은 약간 감소하지만, 실제 차량 제어와 같은 실시간 요구 환경에서는 현저히 높은 성능을 보였다.
상세 분석
RT‑MBA 아키텍처는 기존 모델 기반 RL이 “모델 업데이트 → 플래닝 → 행동 선택”을 순차적으로 수행하면서 발생하는 행동 지연 문제를 근본적으로 해결한다. 핵심 아이디어는 세 개의 독립 스레드(행동, 모델 학습, 플래닝)를 도입하고, 공유 변수에 뮤텍스 잠금을 적용해 데이터 일관성을 유지하면서도 병렬 처리를 가능하게 하는 것이다.
-
샘플 기반 근사 플래닝: 정확한 가치 반복 대신 Monte‑Carlo Tree Search(MCTS)와 그 변형인 UCT, Sparse Sampling 등을 사용한다. 이러한 방법은 전체 상태 공간을 탐색하는 대신 현재 상태와 근접한 경로에 집중해 제한된 시간 안에 유용한 정책을 생성한다. 롤아웃 수가 늘어날수록 가치 추정이 개선되며, 플래닝 스레드는 가능한 한 많이 롤아웃을 수행한다.
-
모델 학습 병렬화: 행동 스레드가 새로운 전이(h, a, s′, r)를 경험 리스트에 추가하면, 모델 학습 스레드는 이를 비동기적으로 복사본 모델에 적용하고, 업데이트가 완료되면 원본 모델 포인터를 교체한다. 이 과정에서 모델 전체를 잠그는 시간은 모델 포인터 교체 순간에만 발생하므로, 플래닝 스레드와 행동 스레드는 거의 방해받지 않는다.
-
뮤텍스 설계: 업데이트 리스트, 현재 상태, 정책 테이블(각 상태별) 등 공유 자원에 대해 세분화된 뮤텍스가 할당되어, 특정 상태에 대한 정책만 잠그면 다른 상태에 대한 플래닝은 계속 진행될 수 있다. 이는 다코어 환경에서 스레드 간 경쟁을 최소화하고, 실제 로봇 제어 주기(10 Hz~100 Hz)와 일치하도록 행동을 즉시 반환한다.
-
샘플 효율성 vs. 실시간성 트레이드오프: 모델 업데이트를 배치 방식으로 수행하기 때문에, 한 번에 다수의 전이를 모델에 반영한다면 순차형 방법에 비해 샘플 효율성이 약간 감소한다. 그러나 실시간 제어가 필수인 상황에서는 이 손해가 크게 상쇄된다.
-
실험 결과:
- Mountain Car: 순차형 VI와 MCTS가 샘플 효율성에서 우수했지만, RT‑MBA는 10 Hz에서 거의 동일한 학습 곡선을 보였으며, 25 Hz·100 Hz에서는 초기 에피소드에서 보상이 낮아졌다. 그러나 전체 학습 시간(벽시계) 기준으로는 RT‑MBA가 훨씬 빠르게 수렴했다.
- 자율주행 차량: 실제 로봇 플랫폼에서 20 Hz 이상으로 행동을 제공해야 하는데, 순차형 방법은 플래닝 대기 시간 때문에 제어가 불가능했다. RT‑MBA는 실시간으로 스티어링 명령을 생성하면서도 안전하게 목표 라인을 따라 주행했다.
-
한계와 향후 연구: 현재 구현은 랜덤 포레스트 기반 모델 학습을 사용했으며, 복잡한 연속 상태·동작 공간에서는 모델 정확도가 제한될 수 있다. 또한, 뮤텍스 충돌이 빈번해지는 고밀도 상태 공간에서는 스케일링 문제가 발생할 가능성이 있다. 향후에는 딥 뉴럴 네트워크 기반 모델과 비동기 강화학습 기법을 결합해, 더 높은 차원의 로봇 제어에 적용하는 방향을 제시한다.
전반적으로 RT‑MBA는 “샘플 효율성 + 실시간 행동”이라는 로봇 RL의 두 핵심 요구를 동시에 만족시키는 실용적인 설계이며, 멀티코어 하드웨어를 활용해 기존 방법이 불가능했던 실시간 제어 문제를 해결한다.
댓글 및 학술 토론
Loading comments...
의견 남기기