나노 드론을 위한 초소형 딥 강화학습 기반 자율 소스 탐색

본 논문은 제한된 자원을 가진 나노 쿼드콥터, 특히 Bitcraze CrazyFlie에 딥 강화학습 기반 소스 탐색 및 장애물 회피 기능을 온보드 구현한 연구이다. 연구 동기는 GPS가 차단된 실내·지하 환경에서 저비용·고민성 로봇이 자율적으로 위험 물질(예: 방사능)이나 구조 신호를 탐지해야 하는 상황을 가정한다. 기존 SLAM이나 지도 기반 방법은 메모리·연산 요구량이 과다해 나노 드론에 적용하기 어렵고, 기존 FSM 기반 탐색은 환경 변화에 대한 일반화가 제한적이다. 따라서 저전력·저용량 MCU(Cortex‑M4) 위에서 실행 가능한 경량 딥 RL 정책을 설계하고, 실제 비행 실험을 통해 성능을 검증한다. 1. 시스템 설계 - 하드웨어: CrazyFlie 2.1에 라이다 4개(전·후·좌·우, 최대 5 m), TSL2591 광센서(위쪽), 광류 센서(자세 추정) 장착. 카메라는 무게·전력·비용 문제로 배제. - 전원·메모리: MCU는 1 MB 플래시, 196 kB RAM 중 131 kB 정적 할당 가능. 기존 스택이 98 kB RAM을 차지하므로, 딥 RL 스택은 20.5 kB RAM, 6 kB 플래시만 사용해 75 % 여유 확보. - 소프트웨어: 맞춤형 C 기반 추론 라이브러리를 구현해 TensorFlow Lite for Microcontrollers 대비 메모리·오버헤드 감소. 2. 관측 및 행동 설계 - 관측 o = (l₁,l₂,l₃,l₄,s₁,s₂) ∈ ℝ⁶. 라이다 거리 l₁~l₄는 장애물 감지, s₁은 저역통과 필터 후 광량 변화(시간적 그래디언트) 정규화, s₂는 필터링된 광량 자체를 -1~1로 변환해 거리 추정 프록시 제공. - 행동 a는 세 가지 목표 상태: 전진(0.5 m/s), 좌회전(±54°/s) 조합. 저수준 PID가 목표 상태를 실현한다. 3. 강화학습 설정 - POMDP: 관측은 연속, 행동은 이산. DQN 사용, 네트워크는 입력층 → 은닉층(20,20) → 출력(3) 구조. - 보상 r = 1000·α – 100·β – 20·ΔDs. α는 목표 1 m 이내 도달 시 1, β는 충돌·시간 초과 시 1, ΔDs는 거리 변화(음수 시 보상). - 감가율 γ=0.99, 에피소드 최대 300 스텝, 목표는 제한된 시간 안에 소스 찾기. 4. 시뮬레이션 환경 및 학습 - Air Learning + AirSim 사용, 무작위 장애물 밀도·배치·재질, 라이트 소스는 실제 실험 데이터 기반 가우시안 모델링(f(x)=a·e^{-(x-b)²/(2c²)}). 노이즈 σ=4 주입. - 학습은 약 3,600 에피소드(≈100k 스텝)에서 수렴, 이후 과적합 현상 관찰. 성공률 94 % 달성. 5. 실제 비행 실험 - CrazyFlie에 학습된 정책을 100 Hz로 실행, 라이다와 광센서 데이터 실시간 처리. - 실험 환경은 무작위 장애물 배치와 빛 소스 위치가 변하는 클러터드 아레나. 성공률 94 % (시뮬레이션 94 %와 일치), 평균 스텝 수는 FSM 대비 30 % 감소. - 전력 소비는 기존 학습 기반 방법 대비 3배 절감, 배터리 지속 시간 향상. 6. 비교 및 분석 - 시스템 측면: 기존 학습 기반 솔루션(예:

나노 드론을 위한 초소형 딥 강화학습 기반 자율 소스 탐색

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기