점에서 움직임까지 LiDAR 기반 동적 장애물 회피 강화학습 시스템
초록
본 논문은 단일 2D LiDAR 센서를 이용해 저해상도 거리 맵과 점 흐름(point flow)을 결합한 환경 인식 표현을 만들고, 이를 강화학습(RL) 정책에 입력하여 동적 장애물이 존재하는 복잡한 클러터 환경에서도 사전 회피 행동을 스스로 학습한다. 객체 검출·추적·예측 과정을 배제하고, 모델‑프리 가속도 제어와 시뮬레이션‑투‑실제 전이 기법을 통해 실제 쿼드로터에 안전하게 적용한다.
상세 분석
이 연구는 동적 장애물 회피를 위한 전통적인 파이프라인(객체 검출 → 트래킹 → 궤적 예측 → 플래닝)을 완전히 배제하고, “점‑to‑모션”이라는 새로운 패러다임을 제시한다. 핵심은 두 가지 저비용 센싱 모듈이다. 첫째, 원시 LiDAR 포인트 클라우드를 고정된 형태(108×18)로 레이캐스트하고, 각 셀에서 가장 가까운 포인트를 선택해 저해상도(36×6) 거리 맵을 만든다. 이 과정은 “가장 위험한 장애물”을 보존하면서도 연산량을 크게 줄인다. 둘째, 연속된 거리 맵을 3채널 회색조 이미지로 변환하고, 사전 학습된 NeuFlowV2를 이용해 픽셀‑단위 흐름을 추정한다. 흐름은 5프레임 평균 후 스케일링되어 거리 맵과 동일한 해상도로 맞춰진다. 이렇게 얻어진 (거리, 흐름) 2채널 텐서는 CNN 인코더를 통해 특징을 추출하고, 목표 방향·현재 속도·이전 액션과 결합해 MLP 기반 액터‑크리틱 네트워크에 입력한다.
정책은 가속도 명령(3차원)을 직접 출력한다. 이는 “모델‑프리” 접근으로, 훈련 시 사용된 물리 모델과 실제 비행기의 동역학 차이가 있더라도 동일한 가속도 레벨에서 동작한다는 장점이 있다. 보상 함수는 안전(충돌 회피), 목표 도달, 동적 장애물 회피, 그리고 상태 제약(속도·가속·고도·jerk) 등을 로그‑형식 제한 함수로 정량화한다. 특히 동적 장애물 보상은 흐름‑재구성된 거리 필드와 연계돼, 장애물이 접근할수록 큰 페널티를 부여함으로써 정책이 “미리 회피”하도록 유도한다.
시뮬레이션에서는 다양한 움직이는 보행자와 정적 나무를 배치해 성공률을 평가했으며, 기존 객체‑기반 방법보다 높은 회피 성공률과 빠른 반응성을 보였다. 실제 실험에서는 HKU 캠퍼스 야외에서 쿼드로터가 동적 보행자를 회피하며 목표 지점에 도달하는 모습을 시연, 시뮬레이션‑투‑실제 전이 손실이 거의 없음을 입증했다. 전체 시스템은 라이다‑관성 센서 융합을 통한 상태 추정, 경량 CNN‑MLP 구조, 그리고 사전 학습된 흐름 추정기 사용으로 구현 복잡도가 낮으며, 실시간(≈50 Hz) 운용이 가능하다.
이 논문의 주요 기여는 (1) 저해상도 거리 맵과 점 흐름을 결합한 객체‑프리 동적 인식 표현, (2) 흐름‑인식 보상으로 조기에 회피 행동을 학습시키는 강화학습 프레임워크, (3) 모델‑프리 가속도 제어와 시뮬레이션‑투‑실제 전이 기법을 통한 실제 비행 적용 가능성이다. 이러한 접근은 복잡한 동적 클러터 환경에서 고성능, 저전력, 저비용 드론 자율비행 솔루션으로 활용될 잠재력이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기