UAV 경로 최적화를 위한 적응형 노이즈 강화 딥 Q‑네트워크
초록
**
본 논문은 잔차(NoisyLinear) 레이어와 성능 기반 노이즈 스케줄링을 결합한 개선형 Noisy DQN을 제안한다. 15 × 15 격자 환경에서 통신 제약을 고려한 UAV 탐색 문제를 설정하고, Double DQN 및 소프트 타깃 업데이트를 통해 학습 안정성을 높였다. 실험 결과, 기존 DQN 대비 수렴 속도가 빨라지고 보상이 최대 40 % 향상되었으며, 최소 단계 수 28을 빠르게 달성하였다.
**
상세 분석
**
이 연구는 UAV 경로 계획을 강화학습으로 해결하려는 기존 시도에 두 가지 핵심 혁신을 추가한다. 첫째, NoisyLinear 레이어를 잔차 구조와 결합해 네트워크 깊이에 관계없이 탐색 노이즈가 효과적으로 전파되도록 설계하였다. 이는 기존 NoisyNet이 층마다 독립적인 노이즈를 적용해 발생할 수 있는 학습 불안정을 완화한다. 둘째, 노이즈 스케줄링을 고정된 감쇠가 아니라 최근 성공률 (P_n) 에 기반한 가변 스케일 (\alpha(n)) 으로 정의함으로써, 학습 초기에 적극적인 탐색을 유지하고 성능이 향상될수록 점진적으로 노이즈를 감소시켜 exploitation을 강화한다. 또한 일정 주기 (k) 마다 노이즈를 재샘플링하는 메커니즘을 도입해 정책 다양성을 보장한다.
네트워크는 2‑계층 MLP 피처 추출기 뒤에 두 개의 잔차 NoisyLinear 블록을 배치하고, 마지막에 값 헤드를 연결한다. 이 구조는 파라미터 수를 크게 늘리지 않으면서도 복잡한 상태‑행동 관계를 학습할 수 있게 한다. Double DQN을 이용한 타깃 Q값 추정과 소프트 업데이트((\tau\ll1))는 과대평가와 타깃 드리프트를 억제해 학습 안정성을 크게 향상시킨다.
실험 설정은 15 × 15 격자에 다중 장애물과 거리‑기반 신호 감쇠 모델을 배치해 현실적인 통신‑제한 환경을 재현한다. 보상 함수는 목표 거리, 이동 거리, 남은 시간, 장애물 근접도, 신호 강도 등을 가중치 (\nu_i) 로 종합해 다목적 최적화를 유도한다. 제안 모델은 표준 DQN, Double DQN, Prioritized Experience Replay 등과 비교했을 때 평균 에피소드 보상이 40 % 이상 상승하고, 목표 지점 도달에 필요한 평균 단계가 최소 28단계에 근접한다. 수렴 곡선에서도 초기 10 % 에피소드만에 급격히 안정된 손실을 보이며, 기존 방법보다 2‑3배 빠른 학습 속도를 기록한다.
한계점으로는 시뮬레이션 환경이 2‑D 격자에 국한되어 실제 3‑D 비행 및 동적 장애물, 복합 채널 모델을 반영하지 못한다는 점이다. 또한 노이즈 스케줄링의 하이퍼파라미터 (\alpha_{\min},\alpha_{\max},T_{\text{decay}}) 가 실험에 따라 민감하게 변할 수 있어 일반화에 대한 추가 검증이 필요하다. 향후 연구에서는 멀티‑UAV 협업, 실시간 채널 추정, 그리고 하드웨어 구현을 통한 실험을 통해 제안 방법의 실용성을 확장할 여지가 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기