연속 로봇 학습을 위한 고다양성 물리 시뮬레이션 스위트 CRoSS
초록
CRoSS는 Gazebo 기반의 두 로봇 플랫폼(2‑휠 차동 구동 로봇과 7‑자유도 팔)을 활용해 수백 개의 변형 과제를 자동 생성하고, 물리적 현실성을 유지하면서 컨테이너화된 환경을 제공한다. 라인‑팔로잉·물체‑밀기, 고수준·저수준 팔 제어 등 다양한 제어 모드를 지원하며, kinematics‑only 변형으로 시뮬레이션 속도를 100배 이상 가속한다. DQN·REINFORCE 등 표준 RL 알고리즘의 베이스라인 결과와 함께, 망각·전이·최종 성능을 측정하는 지표를 제시한다.
상세 분석
CRoSS는 연속 강화학습(Continual Reinforcement Learning, CRL) 연구에 필요한 핵심 요소를 모두 갖춘 벤치마크로, 기존 로봇 기반 CRL 환경이 갖는 과제 수 제한, 센서 다양성 부족, 설치 복잡성 등의 문제를 근본적으로 해결한다. 첫 번째 로봇 플랫폼은 2‑휠 차동 구동 로봇으로, 라인‑팔로잉(Multi‑task Line Following, MLF)과 물체‑밀기(Multi‑task Pushing Objects, MPO) 두 시나리오를 제공한다. MLF에서는 라인 색상, 배경 색상, LED 색상 등 6가지 시각·구조 파라미터를 조합해 150개의 고유 트랙을 생성하고, 각 트랙은 50개의 에피소드(최대 30 스텝)로 구성된다. 관측은 100×3 RGB 라인 카메라 이미지에 라이다 거리값을 삽입한 형태이며, 행동은 18차원(3가지 주행 명령 × 6가지 LED 제어)으로 정의된다. MPO는 150개의 물체(색·형태·심볼 조합) 중 4개를 동시에 제시하고, 로봇은 전진·좌·우·정지 네 가지 행동으로 물체에 접근·밀기/피하기를 학습한다. 두 시나리오 모두 ‘기본 설정(DS)’, ‘단순화 설정(SS)’, ‘초단순화 설정(SSS)’의 3단계 난이도 계층을 제공해, 과제 자체의 난이도와 연속 학습 난이도를 명확히 분리한다는 장점을 갖는다.
두 번째 플랫폼은 7‑자유도 Franka Emika Panda형 로봇 팔이다. 고수준 목표 도달(Continual World와 유사한 6방향 Cartesian 목표)과 저수준 관절 제어 두 가지 제어 모드를 제공한다. 고수준 목표는 목표 위치에 도달하면 보상이 주어지며, 저수준 관절 제어는 직접 관절 각도와 속도를 출력한다. 이와 별도로 물리 엔진을 배제하고 순수 운동학(kinematics‑only) 버전을 제공해, 센서 입력이 필요 없는 경우 시뮬레이션 속도를 100배 이상 가속한다. 이는 대규모 연속 학습 실험에서 계산 비용을 크게 낮추면서도 정책 전이와 망각 현상을 평가할 수 있게 한다.
CRoSS는 Gazebo‑Transport와 ROS 브리지를 활용해 센서·액추에이터·에이전트 간 통신을 표준화했으며, Gymnasium API와 호환되는 환경 관리자를 제공한다. 이를 통해 기존 RL 라이브러리와 바로 연동이 가능하고, Apptainer(이전의 Singularity) 컨테이너 이미지로 배포해 Linux 환경 어디서든 일관된 실행 환경을 보장한다. 논문에서는 DQN과 REINFORCE를 각각 MLF·MPO와 팔 제어에 적용한 베이스라인 결과를 제시했으며, 망각 정도를 측정하는 ‘Average Forgetting’, 전이 효율을 나타내는 ‘Forward Transfer’, 최종 성능을 나타내는 ‘Final Performance’ 지표를 정의했다. 실험 결과는 기본 설정에서 기존 알고리즘이 심각한 망각을 겪는 반면, 단순화된 설정에서는 학습이 비교적 안정적임을 보여, 과제 난이도와 연속 학습 성능 사이의 상관관계를 명확히 드러낸다.
기술적 기여는 크게 다섯 가지로 요약된다. 첫째, 물리적 현실성을 갖춘 두 로봇 플랫폼을 제공해 시뮬‑실 세계 전이 연구에 직접 활용 가능하게 했다. 둘째, 시각·구조·동작 파라미터를 조합해 수백 개의 과제를 자동 생성함으로써 확장 가능한 과제 다양성을 확보했다. 셋째, 고수준·저수준 제어, 물리·운동학 모드 등 다중 제어 모드를 지원해 알고리즘의 일반화 능력을 다각도로 평가한다. 넷째, 컨테이너화와 표준 API 제공으로 재현성·배포성을 극대화했으며, ROS와의 호환성을 통해 실제 로봇에 바로 적용할 수 있는 기반을 마련했다. 마지막으로, 베이스라인 구현과 평가 지표를 공개해 향후 연구자들이 동일 조건에서 성능을 비교·확장할 수 있도록 했다. 이러한 특성은 기존 로봇 기반 CRL 벤치마크가 갖는 과제 수 제한, 센서 다양성 부족, 설치 복잡성 등을 근본적으로 해결하고, 물리 기반 연속 학습 연구의 새로운 표준이 될 잠재력을 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기