다양하고 미지의 복잡 트랙을 정복하는 비전 기반 드론 레이싱
초록
본 논문은 고속 비전 기반 드론 레이싱을 위해 두 단계 학습 프레임워크를 제안한다. 첫 단계는 소프트 충돌을 허용해 탐색을 확대하고, 두 번째 단계는 하드 충돌을 적용해 안전성을 강화한다. 적응형 노이즈 커리큘럼과 비대칭 액터‑크리틱 구조를 통해 게이트 위치 정보에서 깊이 영상으로 점진적으로 의존도를 전환한다. 또한 Lipschitz 제약과 트랙 프리미티브 생성기를 도입해 움직임의 부드러움과 환경 일반화를 촉진한다. 고성능 병렬 시뮬레이터 DiffLab에서 학습한 정책을 경량화된 실제 쿼드로터에 적용해, 게이트 위치 오차와 장애물 존재에도 강인한 레이싱을 구현한다.
상세 분석
이 연구는 기존 RL 기반 드론 레이싱이 고정된 장애물 없는 트랙에만 최적화된 한계를 극복하고자 한다. 핵심 아이디어는 “소프트‑콜리전 단계”와 “하드‑콜리전 단계”라는 두 단계 학습 전략이다. 첫 단계에서는 충돌을 물리적으로 차단하지 않고, 드론이 장애물을 통과하도록 허용함으로써 에피소드가 조기에 종료되는 문제를 방지하고, 고속 주행을 위한 탐색 공간을 넓힌다. 충돌 포인트에 가벼운 페널티를 부여해 속도와 안전 사이의 균형을 서서히 맞춘다. 두 번째 단계에서는 실제 강체 충돌 모델을 적용해 충돌 시 즉시 종료와 큰 페널티를 부여함으로써 정책이 정확한 회피 행동을 학습하도록 강제한다.
학습 효율을 높이기 위해 적응형 노이즈 커리큘럼을 도입하였다. 게이트 위치 명령에 일정 범위의 잡음을 점진적으로 증가시키며, 에이전트가 일정 수 이상의 게이트를 성공적으로 통과하면 잡음 레벨을 상승시키고, 실패하면 감소시킨다. 이는 명령 신호가 점점 불확실해짐에 따라 정책이 깊이 영상으로부터 게이트를 인식하도록 유도한다.
비대칭 액터‑크리틱 구조는 이 과정에서 핵심적인 역할을 한다. 액터는 노이즈가 섞인 명령과 깊이 관측을 모두 입력받아 행동을 생성하지만, 점차 깊이 정보에 의존하도록 학습한다. 반면 크리틱은 여전히 정확한(노이즈 없는) 게이트 위치를 사용해 가치 함수를 추정함으로써 학습 안정성을 유지한다.
또한 정책의 부드러운 움직임을 보장하기 위해 Lipschitz 연속성을 정규화 항으로 추가하였다. 이는 급격한 제어 변화와 진동을 억제해 실제 비행 시 기계적 스트레스를 감소시킨다. 트랙 프리미티브 생성기는 원형, 지그재그, 타원형 등 세 가지 기본 트랙 형태를 무작위 조합해 다양한 레이아웃을 생성한다. 이러한 다양성은 정책이 특정 트랙에 과적합되는 것을 방지하고, 새로운 환경에서도 전이 가능하도록 만든다.
시뮬레이션 환경은 NVIDIA Isaac Lab 기반의 DiffLab을 사용해 고성능 병렬 시뮬레이션을 구현했으며, 도메인 랜덤화와 시스템 식별을 통해 시뮬‑리얼 격차를 최소화하였다. 최종적으로 경량화된 라즈베리 파이 제로 3W와 Intel RealSense D435i를 탑재한 실제 쿼드로터에 정책을 배포했으며, VICON 시스템으로 상태를 보정한다. 실험 결과, 정책은 게이트 위치 오차가 ±0.3 m까지 존재하고, 임의의 장애물이 배치된 트랙에서도 평균 랩 타임을 크게 손상시키지 않으며, 충돌률을 90 % 이상 감소시켰다.
이 논문은 비전 기반 드론 레이싱에서 고속 주행과 안전 회피를 동시에 달성할 수 있는 학습 파이프라인을 제시하고, 실제 제한된 컴퓨팅 자원에서도 적용 가능한 솔루션을 제공한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기