연속 자원을 고려한 확률적 도메인 계획을 위한 휴리스틱 탐색

초록

연속적인 자원(연료, 전력 등)이 제한된 확률적 환경에서 최적 정책을 찾기 위해, 이 논문은 이산·연속 상태 변수를 동시에 다루는 하이브리드 상태공간 위에서 동작하는 HAO* 알고리즘을 제안한다. admissible heuristic과 시작 상태 정보를 활용해 탐색 범위를 제한함으로써, 자원 제약으로 도달 가능한 상태만을 효율적으로 탐색한다. 행성 탐사 로버 시뮬레이션 실험을 통해 기존 AO* 대비 계산량과 메모리 사용이 크게 감소함을 보였다.

상세 분석

본 논문은 연속적인 자원 제한이 존재하는 확률적 마르코프 의사결정 과정(MDP)에서 최적 정책을 도출하는 문제를 ‘연속‑이산 하이브리드 상태공간’이라는 새로운 모델링 프레임워크로 정의한다. 기존 AO는 순수 이산 상태공간에만 적용 가능했으며, 연속 자원은 상태를 무한히 세분화해야 하는 문제를 야기한다. 이를 해결하기 위해 저자들은 두 가지 핵심 아이디어를 도입한다. 첫째, 자원 변수를 ‘단조(monotonic)’하게 가정함으로써, 자원 소모가 일방향으로만 진행된다는 특성을 이용해 연속 차원을 구간 형태로 압축한다. 이때 각 구간은 ‘리치어블(reachable)’ 여부를 판단하는 기준이 되며, 불가능한 구간은 탐색에서 자동으로 배제된다. 둘째, AO의 그래프 구조를 그대로 유지하면서, 각 노드에 연속 자원 구간을 부착한 ‘하이브리드 노드’를 사용한다. 이 노드는 이산 상태와 연속 자원 구간의 조합을 의미하며, 전이 확률과 비용은 구간 전체에 대한 기대값으로 근사한다.

HAO*는 admissible heuristic h(s) 를 요구한다. 저자들은 ‘잔여 자원 기반 상한값’과 ‘최대 기대 보상’ 두 가지 휴리스틱을 결합해, 실제 최적값을 절대 초과하지 않으면서도 충분히 타이트한 추정치를 제공한다. 이 휴리스틱은 시작 상태에서 목표까지의 최적 경로를 가이드하는 역할을 하며, 탐색 트리의 확장 순서를 결정한다. 탐색 과정에서 ‘백프로파게이션(back‑propagation)’을 통해 각 하이브리드 노드의 f‑값(g + h)을 갱신하고, 더 이상 개선이 불가능한 노드는 ‘솔루션 경로(solution path)’에 포함시킨다.

이론적으로 저자들은 HAO가 AO와 동일한 최적성 보장을 갖는다고 증명한다. 즉, admissible heuristic와 완전한 전이 모델이 주어지면, HAO*는 탐색을 종료했을 때 시작 상태에 대한 최적 가치와 정책을 반환한다. 또한, 연속 자원 구간을 이용한 상태 압축 덕분에 메모리 복잡도가 연속 차원의 해상도에 선형적으로 의존하지 않으며, 실제 구현에서는 자원 구간을 동적으로 분할·병합함으로써 탐색 효율을 더욱 높인다.

실험에서는 NASA의 마르스 로버 미션을 모델링한 ‘Rover Domain’을 사용했다. 이 도메인은 이동, 샘플 채취, 사진 촬영 등 여러 행동이 존재하고, 각 행동은 연료와 전력이라는 두 연속 자원을 소모한다. 실험 결과, HAO는 동일한 휴리스틱을 사용한 전통적인 AO에 비해 탐색 노드 수를 평균 70 % 이상 감소시켰으며, 실행 시간과 메모리 사용량도 크게 절감했다. 특히 자원 제약이 엄격할수록(예: 초기 연료량이 적을 때) HAO의 이점이 두드러졌다. 이는 자원 제한이 도달 가능한 상태공간을 자연스럽게 제한하기 때문에, HAO가 불필요한 탐색을 사전에 차단할 수 있기 때문이다.

한계점으로는 연속 자원의 단조성 가정이 모든 실제 문제에 적용되지 않을 수 있다는 점과, 휴리스틱 설계가 문제 특성에 크게 의존한다는 점을 들 수 있다. 또한, 구간 분할 전략이 과도하게 세밀하면 오히려 탐색 비용이 증가할 수 있다. 향후 연구에서는 비단조적 자원(예: 재충전 가능한 전력) 모델링, 학습 기반 휴리스틱 자동 생성, 그리고 다중 로봇 협업 상황에 대한 확장 등을 제시한다.