위상 기반 가치 반복 알고리즘

초록

본 논문은 마코프 결정 과정(MDP)의 상태 전이 그래프를 강하게 연결된 구성요소(SCC)로 분해하고, 위상 순서에 따라 값을 백업하는 두 가지 새로운 알고리즘, TVI와 FTVI를 제안한다. FTVI는 휴리스틱 검색을 이용해 최적이 아닌 행동을 사전에 제거함으로써 관련 SCC만을 집중적으로 해결한다. 실험 결과, 두 알고리즘은 기존 VI, ILAO*, LRTDP 등과 비교해 특히 SCC가 다수 존재하고 크기가 비슷한 도메인에서 수십 배에서 수백 배까지 빠른 성능을 보인다.

상세 분석

본 연구는 전통적인 가치 반복(VI)이 전체 상태 공간을 매 반복마다 백업함으로써 발생하는 불필요한 연산을 근본적으로 줄이는 방법을 모색한다. 핵심 아이디어는 MDP를 그래프 이론의 관점에서 바라보고, 상태 전이 관계를 유향 그래프로 모델링한 뒤, 이 그래프를 강하게 연결된 구성요소(SCC)로 분할하는 것이다. SCC는 내부에서 서로 도달 가능하지만 외부와는 일방향 연결만을 갖는 서브그래프이므로, 각 SCC를 독립적인 하위문제로 취급할 수 있다. 논문은 먼저 전체 MDP를 Tarjan 알고리즘 등 선형 시간 복잡도의 SCC 탐색 기법으로 분할하고, 이후 위상 정렬을 통해 SCC 간 의존 관계를 파악한다. 위상 순서에 따라 SCC를 차례대로 해결하면, 이미 해결된 전이 선행 SCC의 값이 고정된 상태에서 현재 SCC의 벨만 백업을 수행할 수 있어, 불필요한 반복을 방지한다. 이 과정이 바로 Topological Value Iteration(TVI)이다. TVI는 각 SCC 내부에서는 기존 VI와 동일하게 수렴할 때까지 반복하지만, SCC 간에는 한 번만 백업을 수행한다는 점에서 전체 복잡도가 크게 감소한다. 특히, SCC가 다수 존재하고 크기가 비슷할 경우, 각 SCC를 독립적인 작업 단위로 처리함으로써 병렬화 가능성도 내재한다.

FTVI는 TVI의 구조적 장점을 유지하면서, 추가적인 휴리스틱 기반 전처리를 도입한다. 구체적으로, 제한된 탐색(예: A* 혹은 RTDP 스타일의 샘플링)으로 현재 상태에서 최적이 아닌 행동을 식별하고, 이를 전역적으로 차단한다. 이렇게 하면 일부 SCC는 완전히 무시될 수 있거나, 남은 SCC의 크기가 현저히 감소한다. 논문은 “provably sub‑optimal actions”를 제거하는 조건을 정리하고, 이 과정이 최적성에 영향을 주지 않음을 증명한다. 결과적으로 FTVI는 TVI보다 평균적으로 한 자릿수(10배) 정도 빠르며, 특히 목표 상태와 멀리 떨어진 불필요한 영역이 많은 도메인에서 그 효과가 극대화된다.

알고리즘 복잡도 측면에서 TVI는 SCC 분할 비용 O(|S|+|E|)와 각 SCC 내부 VI 비용 Σ_i O(|S_i|·|E_i|·k_i) (k_i는 해당 SCC의 수렴 반복 횟수)로 표현된다. FTVI는 추가적인 휴리스틱 탐색 비용 O(H) (H는 탐색 단계 수)와 행동 제거에 따른 SCC 재구성 비용을 포함한다. 실험에서는 이 두 비용이 전체 실행 시간에 비해 무시할 정도로 작아, 구조적 이득이 지배적인 것으로 나타났다.

마지막으로, 논문은 ILAO*, LRTDP, BRTDP, Bayesian‑RTDP와 같은 기존 휴리스틱 기반 알고리즘과의 비교를 통해, FTVI가 특히 “다중 SCC, 비슷한 크기, 목표와 멀리 떨어진 불필요한 영역”이 존재하는 문제에서 두 자릿수(100배) 이상의 속도 향상을 보인다고 주장한다. 이는 기존 알고리즘이 전역적인 백업 순서를 동적으로 결정하는 반면, FTVI는 사전에 그래프 구조를 활용해 최적의 백업 순서를 고정함으로써 얻는 이점이다.