나노 드론을 위한 초소형 딥 강화학습 기반 자율 소스 탐색

본 논문은 제한된 연산·메모리·전력 자원을 가진 CrazyFlie 나노 쿼드콥터에 경량화된 딥 강화학습(DRL) 정책을 탑재해, 빛(또는 방사선) 소스를 실시간으로 탐색하고 장애물을 회피하는 완전 자율 시스템을 구현한다. 두 개의 라이다와 광센서, 광류 센서를 이용해 6차원 관측을 구성하고, 2개의 은닉층(각 20노드)으로 구성된 DQN을 100 Hz로 MCU(Cortex‑M4)에서 추론한다. 시뮬레이션 및 실제 비행 실험에서 94 % 성공률을…

저자: Bardienus P. Duisterhof, Srivatsan Krishnan, Jonathan J. Cruz

나노 드론을 위한 초소형 딥 강화학습 기반 자율 소스 탐색
본 논문은 제한된 자원을 가진 나노 쿼드콥터, 특히 Bitcraze CrazyFlie에 딥 강화학습 기반 소스 탐색 및 장애물 회피 기능을 온보드 구현한 연구이다. 연구 동기는 GPS가 차단된 실내·지하 환경에서 저비용·고민성 로봇이 자율적으로 위험 물질(예: 방사능)이나 구조 신호를 탐지해야 하는 상황을 가정한다. 기존 SLAM이나 지도 기반 방법은 메모리·연산 요구량이 과다해 나노 드론에 적용하기 어렵고, 기존 FSM 기반 탐색은 환경 변화에 대한 일반화가 제한적이다. 따라서 저전력·저용량 MCU(Cortex‑M4) 위에서 실행 가능한 경량 딥 RL 정책을 설계하고, 실제 비행 실험을 통해 성능을 검증한다. 1. 시스템 설계 - 하드웨어: CrazyFlie 2.1에 라이다 4개(전·후·좌·우, 최대 5 m), TSL2591 광센서(위쪽), 광류 센서(자세 추정) 장착. 카메라는 무게·전력·비용 문제로 배제. - 전원·메모리: MCU는 1 MB 플래시, 196 kB RAM 중 131 kB 정적 할당 가능. 기존 스택이 98 kB RAM을 차지하므로, 딥 RL 스택은 20.5 kB RAM, 6 kB 플래시만 사용해 75 % 여유 확보. - 소프트웨어: 맞춤형 C 기반 추론 라이브러리를 구현해 TensorFlow Lite for Microcontrollers 대비 메모리·오버헤드 감소. 2. 관측 및 행동 설계 - 관측 o = (l₁,l₂,l₃,l₄,s₁,s₂) ∈ ℝ⁶. 라이다 거리 l₁~l₄는 장애물 감지, s₁은 저역통과 필터 후 광량 변화(시간적 그래디언트) 정규화, s₂는 필터링된 광량 자체를 -1~1로 변환해 거리 추정 프록시 제공. - 행동 a는 세 가지 목표 상태: 전진(0.5 m/s), 좌회전(±54°/s) 조합. 저수준 PID가 목표 상태를 실현한다. 3. 강화학습 설정 - POMDP: 관측은 연속, 행동은 이산. DQN 사용, 네트워크는 입력층 → 은닉층(20,20) → 출력(3) 구조. - 보상 r = 1000·α – 100·β – 20·ΔDs. α는 목표 1 m 이내 도달 시 1, β는 충돌·시간 초과 시 1, ΔDs는 거리 변화(음수 시 보상). - 감가율 γ=0.99, 에피소드 최대 300 스텝, 목표는 제한된 시간 안에 소스 찾기. 4. 시뮬레이션 환경 및 학습 - Air Learning + AirSim 사용, 무작위 장애물 밀도·배치·재질, 라이트 소스는 실제 실험 데이터 기반 가우시안 모델링(f(x)=a·e^{-(x-b)²/(2c²)}). 노이즈 σ=4 주입. - 학습은 약 3,600 에피소드(≈100k 스텝)에서 수렴, 이후 과적합 현상 관찰. 성공률 94 % 달성. 5. 실제 비행 실험 - CrazyFlie에 학습된 정책을 100 Hz로 실행, 라이다와 광센서 데이터 실시간 처리. - 실험 환경은 무작위 장애물 배치와 빛 소스 위치가 변하는 클러터드 아레나. 성공률 94 % (시뮬레이션 94 %와 일치), 평균 스텝 수는 FSM 대비 30 % 감소. - 전력 소비는 기존 학습 기반 방법 대비 3배 절감, 배터리 지속 시간 향상. 6. 비교 및 분석 - 시스템 측면: 기존 학습 기반 솔루션(예:

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기