이중 DQN을 이용한 쿼드콥터 장애물 회피 학습
초록
본 논문은 AirSim 기반 가상 도시 환경에서 깊이 카메라 영상을 입력으로 사용해 이중 Deep Q‑Network(Double DQN)로 쿼드콥터의 장애물 회피와 목표 지점 도달을 학습시키는 방법을 제안한다. 연속적인 상태 공간을 84×84 깊이 이미지로 변환하고, 5개의 요우 레이트와 고정 전진 속도로 구성된 이산 행동 집합을 이용한다. 보상 함수는 목표와의 거리 및 경로 편차를 기반으로 설계했으며, 두 개의 Q‑네트워크를 교대로 업데이트해 과대평가 문제를 완화한다. 실험은 블록형과 ‘Wobles’형 두 가지 훈련 아레나에서 수행했으며, 초기 학습 단계에서 충돌이 빈번했지만 점차 회피 성능이 향상되는 모습을 보였다.
상세 분석
이 논문은 현재 도시 환경에서 GPS 신호가 약해지는 상황과 동적·정적 장애물이 복합적으로 존재하는 문제를 해결하기 위해, 모델‑프리 강화학습 접근법을 선택한 점이 주목할 만하다. 특히, 연속적인 3‑차원 위치와 자세 정보를 직접 다루기보다, 전방 깊이 카메라에서 얻은 84×84 픽셀의 깊이 이미지만을 상태 입력으로 사용함으로써 고차원 센서 데이터를 효율적으로 압축한다. 이는 Convolutional Neural Network(CNN) 기반 특징 추출기에 적합한 형태이며, 이미지 기반 정책 학습에서 흔히 발생하는 시각적 잡음(조명 변화 등)을 회피할 수 있다는 장점이 있다.
Double DQN을 적용한 이유는 전통적인 DQN가 최대 Q값을 선택할 때 발생하는 과대평가(overestimation) 문제를 완화하기 위함이다. 두 개의 Q‑네트워크(Q1, Q2)를 독립적으로 학습시키고, 하나는 행동 선택에, 다른 하나는 가치 평가에 사용함으로써 편향을 감소시킨다. 논문에서는 Q1과 Q2를 무작위로 교체하며 업데이트하는 방식을 채택했으며, 이는 학습 안정성을 높이고 수렴 속도를 가속화한다.
보상 설계는 목표 지점까지의 유클리드 거리와 시작‑목표 직선으로부터의 편차를 결합한 연속형 보상과, 충돌·시간 초과·경로 이탈 시의 큰 패널티를 포함한다. 이러한 설계는 sparse reward 문제를 완화하고, 에이전트가 목표에 가까워질수록 더 큰 보상을 받게 함으로써 탐색‑활용 균형을 유지한다. 다만, 보상 함수가 거리와 편차에만 의존하므로, 급격한 회전이나 비효율적인 경로 선택에 대한 직접적인 페널티가 부족해 학습 초기에 비효율적인 움직임이 발생한다는 한계가 있다.
실험 환경은 AirSim의 Unreal Engine 기반 시뮬레이터를 활용했으며, ‘Blocks’와 ‘Wobles’ 두 가지 아레나를 설계했다. ‘Blocks’는 이동 가능한 블록으로 구성된 직사각형 공간이며, ‘Wobles’는 원통형 기둥, 짧은 벽, 급회전 구역 등 다양한 장애물 유형을 포함한다. 초기 학습 단계에서는 목표 위치가 없고 충돌 회피만을 목표로 하는 프리미티브 학습을 진행한 뒤, 점진적으로 목표 지점을 도입해 복합 과제를 수행한다. 결과적으로 초기 에피소드에서는 충돌 빈도가 높았지만, 에피소드가 진행될수록 평균 보상이 상승하고 충돌률이 감소하는 추세를 보였다. 특히, ‘Blocks’ 환경에서는 카메라 시야에 장애물이 들어오지 않을 경우 회피 성능이 저하되는 현상이 관찰되었으며, 이는 시야 제한에 대한 정책의 취약성을 시사한다.
한계점으로는 (1) 시뮬레이션에서만 검증했으며 실제 드론에 적용했을 때 센서 노이즈·동역학 차이로 인한 성능 저하 가능성, (2) 행동 집합이 요우 레이트 5가지와 고정 전진 속도로 제한돼 있어 복잡한 3‑차원 회피 동작을 충분히 표현하지 못함, (3) 보상 함수가 거리 중심이므로 에너지 효율이나 비행 시간 최소화와 같은 추가 목표를 반영하기 어렵다. 향후 연구에서는 멀티모달 센서(예: RGB‑Depth 융합), 연속 행동 공간을 위한 Actor‑Critic 기반 알고리즘, 그리고 실제 하드웨어 테스트를 통한 도메인 갭 감소 방안을 고려할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기