심층 강화학습으로 훈련된 자율 주행 스케일 카
본 논문은 Unity 기반 가상 환경에서 Double Deep Q‑Network(DDQN)를 이용해 1:16 RC 카를 학습시키고, 학습된 정책을 라즈베리 파이와 카메라가 장착된 실제 스케일 카에 적용하여 시뮬레이션‑현실(sim2real) 전이 성공을 입증한다.
저자: Qi Zhang, Tao Du, Changzheng Tian
본 논문은 “Self‑driving scale car trained by Deep reinforcement learning”이라는 제목 아래, 딥 강화학습을 이용해 1:16 비율의 RC 카를 자율 주행하도록 학습시키고, 이를 실제 차량에 적용하는 전 과정을 상세히 기술한다. 서론에서는 기존의 엔드‑투‑엔드 지도학습 기반 자율 주행이 이미지와 조향 명령 사이의 직접 매핑에 의존해 일반화가 어렵고, 강화학습은 실제 환경에서 보상을 직접 획득해야 하므로 차량 손상 위험이 있다는 문제점을 제시한다. 이를 해결하기 위해 Unity 엔진으로 구축한 가상 시뮬레이션 환경을 활용해 안전하게 대량의 학습 데이터를 생성하고, 학습된 정책을 실물 스케일 카에 전이하는 sim2real 방식을 채택한다.
관련 연구 파트에서는 행동 클로닝, 라인 팔로잉, 전통적인 Q‑학습, DQN, Double DQN 등 기존 방법들을 정리하고, 특히 가상‑현실 로봇 학습 사례(OpenAI Dactyl 등)를 인용해 시뮬레이션 기반 강화학습의 가능성을 강조한다.
제안된 시스템은 하드웨어와 소프트웨어 두 축으로 구성된다. 하드웨어는 Raspberry Pi 3, PCA9685 서보 드라이버, 160° 시야의 라즈베리 파이 카메라, 3D 프린트 차체 등으로 구성된 저비용 RC 카이며, 소프트웨어는 Unity‑기반 Donkey Car 시뮬레이터를 OpenAI Gym 형태로 래핑한 커스텀 환경이다. 웹소켓을 이용해 파이썬 서버와 Unity 클라이언트 간 양방향 통신을 구현해 에이전트가 행동(steering, throttle)을 전송하고, 환경이 상태 이미지와 보상을 반환한다.
상태 전처리는 원본 (120,160) 영상을 (80,80) 그레이스케일로 리사이즈하고, 연속 4프레임을 스택해 (1,80,80,4) 형태의 텐서를 만든다. 추가적으로 차선만을 강조하기 위해 Canny Edge Detector와 Hough Transform을 이용해 직선 검출·분류 후 배경을 제거하는 파이프라인을 적용했다. 이러한 전처리는 시뮬레이션과 실제 환경 간 시각적 차이를 줄이고, 정책이 차선 중심 유지에 집중하도록 돕는다.
알고리즘은 Double Deep Q‑Network(DDQN)를 채택한다. 두 개의 Q‑네트워크(행동 네트워크와 타깃 네트워크)를 사용해 과대평가를 방지하고, 경험 재플레이 버퍼에 저장된 전이 샘플을 무작위로 추출해 미니배치 학습한다. 보상 함수는 차선 중앙 유지(양의 보상), 차선 이탈·충돌(음의 보상), 속도 유지 등을 종합해 설계했으며, 에피소드당 평균 보상이 일정 수준 이상 유지될 때 학습을 종료한다.
실험은 두 단계로 진행된다. 첫 번째는 Unity 시뮬레이터 내에서 약 100 에피소드를 2~3시간 동안 학습시킨 결과, 에이전트가 차선을 안정적으로 따라가며 중간에 멈추지 않고 주행하는 모습을 확인했다. 두 번째는 학습된 정책을 라즈베리 파이에 탑재하고, 실제 1:16 스케일 카에 적용해 동일한 3.5 × 4 m 트랙에서 테스트했다. 실험 영상에서 차량은 시뮬레이션과 유사한 주행 경로를 유지했으며, 차선 이탈이나 충돌 없이 목표 구간을 통과했다.
논문은 이러한 결과를 통해 (1) 시뮬레이션 기반 강화학습이 실제 저비용 차량에 성공적으로 전이될 수 있음을, (2) DDQN이 차선 중심 주행 정책 학습에 충분히 안정적임을, (3) 전처리 파이프라인이 시뮬‑현 전이 시 배경 잡음에 대한 민감도를 낮추는 효과가 있음을 입증한다. 다만, 실험이 제한된 정형 트랙에 국한돼 있어 복잡한 교통 상황, 동적 장애물, 다양한 조명 조건 등에 대한 일반화 검증이 부족하다. 또한 라즈베리 파이의 연산 한계와 카메라 해상도 제약으로 고속 주행 시 실시간 응답성이 떨어질 가능성이 있다.
결론에서는 향후 연구 방향으로 (①) 다양한 도로 레이아웃·동적 객체를 포함한 고난이도 시뮬레이션 구축, (②) 라이다·초음파 등 멀티‑센서 융합을 통한 상태 표현 강화, (③) 다중 목표 보상 설계 및 도메인 랜덤화를 통한 sim2real 격차 최소화, (④) 경량화된 모델 압축 및 하드웨어 가속(예: TensorRT, Edge TPU) 등을 제시한다. 전체적으로 본 연구는 저비용 스케일 카 플랫폼에 딥 강화학습을 적용한 실용적인 사례를 제공하며, 향후 자율 주행 연구 및 교육용 로봇 개발에 유용한 베이스라인이 될 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기