일차 논리 MDP를 위한 휴리스틱 탐색 알고리즘

초록

본 논문은 일차 논리 기반 마코프 결정 과정(FOMDP)을 해결하기 위해, 명제화 없이 상태를 추상화하는 일차 논리 상태 추상화와, 허용 가능한 휴리스틱을 이용해 도달 가능한 상태만 탐색하는 휴리스틱 탐색을 결합한 알고리즘을 제안한다. 구현 시스템인 FCPlanner는 IPC 2004 확률적 트랙에서 경쟁력을 입증하였다.

상세 분석

이 연구는 전통적인 MDP 해결 방식이 직면한 두 가지 근본적인 병목 현상을 동시에 해소한다. 첫 번째는 상태 공간의 폭발이다. 기존 방법은 구체적인 객체와 속성을 모두 명제화하여 상태를 전개하므로, 객체 수가 늘어날수록 상태 수는 지수적으로 증가한다. 논문은 이를 피하기 위해 일차 논리(state) 표현을 그대로 유지하고, 상태를 논리식 집합으로 묶어 ‘첫 번째 차원(state) 추상화’를 수행한다. 이 추상화는 동일한 논리 구조를 공유하는 무수히 많은 구체적 상태를 하나의 추상 상태로 통합함으로써, 평가해야 할 상태 수를 크게 감소시킨다. 두 번째 병목은 전체 상태를 전부 탐색해야 한다는 점이다. 휴리스틱 검색은 목표까지의 비용을 하한으로 제공하는 admissible heuristic을 사용해, 초기 상태에서 도달 가능한 유망한 영역만을 탐색한다. 논문은 특히 ‘가치 함수의 상향식 근사’를 통해 휴리스틱을 생성하고, 이 값이 실제 최적 가치보다 절대적으로 낮아야 함을 보장한다. 알고리즘은 A*와 유사한 구조를 갖지만, 각 노드(추상 상태)의 전이와 보상은 일차 논리 연산으로 정의된다. 전이 연산은 조건부 효과와 확률적 선택을 포함하며, 논리식 치환을 통해 효율적으로 적용된다. 또한, 논문은 휴리스틱 계산 자체에도 상태 추상화를 적용해, 복잡도를 추가적으로 낮춘다. 실험에서는 FCPlanner가 IPC 2004 확률적 트랙의 여러 도메인(예: 블록스 월드, 로봇 내비게이션)에서 기존 propositional 기반 플래너보다 메모리와 시간 면에서 현저히 우수함을 보여준다. 특히, 객체 수가 증가함에 따라 명제화 기반 플래너는 메모리 초과 오류를 일으키는 반면, 제안된 방법은 추상화 덕분에 안정적인 성능을 유지한다. 이 논문은 일차 논리 표현을 유지하면서도 효율적인 탐색을 가능하게 하는 두 가지 핵심 기법—첫 번째 차원 상태 추상화와 admissible heuristic 기반 탐색—을 결합함으로써, FOMDP 분야에서 실용적인 해결책을 제시한다는 점에서 학술적·실용적 의의가 크다.