학습 기반 ADR 임무 계획의 견고성 및 적응성 평가

학습 기반 ADR 임무 계획의 견고성 및 적응성 평가
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 저궤도에서 다중 파편을 수집하는 활성 파편 제거(ADR) 임무를 위해, 고정 파라미터로 학습된 Masked PPO, 임무 제약을 무작위화한 Domain‑Randomized PPO, 그리고 온라인 탐색 기반 MCTS 세 가지 플래너를 비교한다. 300개의 테스트 케이스(정상, 연료 감소, 시간 감소 시나리오)에서 성능, 적응성, 계산 비용을 평가한 결과, 정상 상황에서는 Nominal PPO가 최고 성능을 보였지만 제약 변화에 취약했으며, Domain‑Randomized PPO는 적당한 성능 저하와 함께 높은 적응성을 나타냈다. MCTS는 제약 변화에 가장 강인했지만 실행 시간이 수분 수준으로 크게 늘어났다.

상세 분석

이 연구는 저궤도(Low Earth Orbit)에서 다중 파편을 순차적으로 방문·수집해야 하는 ADR 문제를 제약 최적화된 순차 의사결정 문제로 모델링하고, 세 가지 알고리즘의 견고성(robustness)과 적응성(adaptability)을 정량적으로 분석한다. 첫 번째 접근법인 Nominal Masked PPO는 고정된 미션 파라미터(7일, 3 km/s Δv) 하에서 1 백만 타임스텝을 학습했으며, 행동 마스킹을 통해 비현실적인 전이와 연료 초과를 원천 차단한다. 이 정책은 인퍼런스 시 1초 미만의 지연으로 실시간 운용에 적합하지만, 훈련 분포와 다른 연료·시간 제약이 주어지면 급격히 성능이 저하된다. 두 번째인 Domain‑Randomized PPO는 에피소드 시작 시 미션 기간과 Δv를 사전 정의된 구간(예: 3–7일, 1–3 km/s)에서 무작위로 샘플링해 학습함으로써, 다양한 제약 조건을 경험하도록 설계되었다. 결과적으로 이 정책은 정상 상황에서 Nominal PPO에 근접한 평균 28.2개의 파편을 수집하면서도, 연료가 1 km/s로 감소하거나 시간 제한이 3일로 축소된 경우에도 평균 14.18.1개의 파편을 성공적으로 방문한다. 이는 정책이 훈련 단계에서 제약 다양성을 경험했기 때문에, 배포 시 발생할 수 있는 분포 이동에 대한 내성을 갖게 된 것이다. 세 번째 방법인 MCTS는 매 의사결정 단계마다 현재 상태에서 가능한 행동을 마스크하고, UCT 기반 선택·확장·시뮬레이션·역전파 과정을 200번의 롤아웃으로 수행한다. 온라인 재계획 능력 덕분에 연료·시간 제약이 크게 변해도 평균 1511개의 파편을 안정적으로 수집한다. 그러나 시뮬레이션 복제와 깊이 제한된 롤아웃 때문에 평균 4분 이상의 실행 시간이 소요되어, 온보드 실시간 운용에는 부적합하다. 표 I과 실험 결과를 종합하면, 정책 기반 방법은 계산 효율성에서 압도적인 장점을 가지지만, 제약 변화에 대한 민감도가 높다. 반면, 탐색 기반 MCTS는 제약 변화에 강인하지만, 계산 비용이 크게 증가한다. 따라서 향후 연구는 두 접근법을 결합해, 훈련 시 도메인 랜덤화를 통한 견고성 확보와, 제한된 온라인 탐색(예: 하이브리드 샘플링 또는 제한된 깊이의 MCTS)으로 실시간 적응성을 보완하는 방향이 유망하다. 또한, 마스크된 행동 공간을 활용한 하이브리드 정책‑검색 프레임워크는 연료·시간 제약을 동적으로 재조정하면서도 온보드 계산량을 관리할 수 있을 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기