해양 커버리지 경로 계획을 위한 비평가 없는 딥 강화학습

본 논문은 불규칙한 해안선과 섬·제외구역을 포함한 대규모 해양 영역을 6각형 격자로 이산화한 뒤, Transformer 기반 포인터 정책이 자동으로 전체 커버리지를 만족하는 순회 경로를 생성하도록 학습한다. 가치 함수 없이 샘플 궤적 간 상대적 비교만으로 장점(advantage)을 추정하는 Group‑Relative Policy Optimization(GRPO) 방식을 도입해 학습 안정성을 확보했으며, 실험 결과 1,000개의 미보인 환경에서 …

저자: Carlos S. Sepúlveda, Gonzalo A. Ruz

해양 커버리지 경로 계획을 위한 비평가 없는 딥 강화학습
본 논문은 해양 감시·수색·환경 모니터링 등 대규모 해양 영역에서 센서 자산을 효율적으로 배치하기 위한 Coverage Path Planning(CPP) 문제를 다룬다. 기존 CPP는 정확한 셀 분해가 필요하거나, 매 인스턴스마다 MILP·진화 알고리즘 등 고비용 재계획을 요구해 실시간 적용에 한계가 있었다. 저자들은 이러한 문제점을 해소하기 위해 세 가지 핵심 아이디어를 제시한다. 1. **Hexagonal Grid 기반 이산화** - 해양 영역을 6각형 격자로 tessellation하고, 섬·제외구역을 셀 수준에서 마스킹한다. 6각형 격자는 인접 셀 간 거리가 동일하고 방향 편향이 적어, 실제 선박·UAV의 이동 비용을 보다 정확히 모델링한다. 또한, 그래프 형태로 변환함으로써 순회 문제(TSP와 유사)로 재구성한다. 2. **Transformer 기반 포인터 정책** - 입력으로는 각 셀의 좌표, 장애물 마스크, 방문 여부 등을 임베딩하고, self‑attention을 통해 전역적인 관계를 학습한다. 포인터 메커니즘은 현재 상태에서 다음 방문할 셀을 선택하도록 설계되었으며, 동적 액션 마스킹을 통해 이미 방문했거나 장애물인 셀을 자동으로 배제한다. 이 구조는 문제 규모가 변해도 동일 파라미터로 처리 가능해, 다양한 크기·구조의 A OI에 대한 일반화를 가능하게 한다. 3. **Critic‑Free Group‑Relative Policy Optimization(GRPO)** - 전통적인 Actor‑Critic 방식은 가치 함수 학습이 어려운 ‘희소 보상·긴 시간 지평선’ 문제에 취약하다. GRPO는 동일 인스턴스에서 여러 샘플 궤적을 동시에 생성하고, 각 궤적의 총 보상을 서로 비교해 상대적 advantage를 추정한다. 즉, “이 궤적이 같은 환경에서 평균보다 얼마나 좋은가”를 직접 계산함으로써 가치 네트워크 없이도 정책 그라디언트를 얻는다. 이 방식은 POMO와 유사하지만, 샘플 간 순위 차이를 이용해 더 정교한 신호를 제공한다. **실험 설계** - 1,000개의 합성 해양 환경을 테스트셋으로 사용했으며, 각 환경은 무작위 섬·제외구역·다양한 크기를 포함한다. - 비교 대상은 13가지 전통적 휴리스틱(예: boustrophedon, sweep‑line, MILP 기반 근사)과 최신 NCO 모델(POMO, Attention‑TSP)이다. - 평가 지표는 해밀턴 성공률(모든 셀을 정확히 한 번씩 방문), 평균 경로 길이, 평균 회전 횟수, 추론 시간이다. **주요 결과** - 제안 정책은 99 %의 해밀턴 성공률을 기록했으며, 최우수 휴리스틱(46 %)보다 두 배 이상 높은 성공률을 보였다. - 평균 경로 길이는 최우수 휴리스틱보다 7 % 짧았고, 회전 횟수는 24 % 감소했다. - 추론 시간은 greedy, stochastic sampling, 2‑opt 후 샘플링 모두 50 ms 이하로, 노트북 GPU에서도 실시간 온보드 적용이 가능했다. - 2‑opt 로컬 검색을 결합한 샘플링 모드는 경로 품질을 약간 추가 향상시켰으며, stochastic sampling은 다양한 상황(위험 회피, 에너지 절감)에서 유연성을 제공한다. **논의 및 한계** - 현재는 단일 에이전트(단일 UAV/USV) 설정에만 적용되었으며, 다중 에이전트 협업이나 동적 장애물(예: 움직이는 선박) 고려는 향후 연구 과제로 남는다. - Hexagonal 격자의 해상도 선택이 경로 품질과 연산량 사이의 트레이드오프에 크게 영향을 미치므로, 실제 운용 환경에 맞는 해상도 자동 조정 메커니즘이 필요하다. - 정책은 학습 시에 다양한 인스턴스를 경험하지만, 극단적으로 큰 영역이나 매우 복잡한 장애물 구성이 추가될 경우 추가 학습 또는 파인튜닝이 요구될 수 있다. **결론** 본 연구는 비평가 없는 GRPO와 Transformer 기반 포인터 정책을 결합해, 불규칙한 해양 영역에 대한 CPP 문제를 효율적으로 해결한다는 점에서 의미가 크다. 제안 방법은 높은 성공률, 짧은 경로, 적은 회전, 그리고 실시간 추론이라는 네 가지 핵심 요구사항을 동시에 만족한다. 앞으로 다중 플랫폼 협업, 동적 환경 적응, 그리고 해상도 자동 조정 등을 포함한 확장 연구가 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기