분산 MDP 확장을 위한 휴리스틱 탐색 기반 최적화

초록

본 논문은 관측·전이 독립적인 Dec‑MDP(분산 마코프 결정 과정)에서 최적 정책이 전체 히스토리가 아닌 각 에이전트의 현재 관측에만 의존한다는 증명을 갱신하고, 제약 최적화를 활용한 휴리스틱 탐색 알고리즘을 제안한다. 실험 결과, 기존 DecMDP·Dec‑POMDP 솔버 대비 계산 시간과 확장성에서 수십 배 이상의 개선을 확인하였다.

상세 분석

Dec‑POMDP는 협동적 의사결정 문제를 포괄적으로 모델링하지만, 최적 해를 찾는 복잡도가 NEXP‑complete이라 실용적인 적용이 어렵다. 이러한 상황에서 전이와 관측이 서로 독립적인 Dec‑MDP는 복잡도가 NP 수준으로 낮아져 이론적·실제적 연구가 활발히 진행되고 있다. 논문은 먼저 기존 증명에서 발견된 미비점을 보완하여, 최적 정책이 각 에이전트의 전체 행동·관측 히스토리가 아니라 현재 로컬 관측만을 기반으로 결정된다는 사실을 엄밀히 재증명한다. 이 결과는 상태 공간을 크게 축소시켜, 정책 탐색 과정에서 불필요한 히스토리 정보를 제거함으로써 계산 효율성을 크게 높일 수 있음을 의미한다.

제안된 알고리즘은 A*‑계열의 휴리스틱 검색 프레임워크에 제약 최적화 기법을 결합한다. 구체적으로, 각 검색 노드는 현재 시점까지의 로컬 관측 프로파일을 나타내며, 노드 확장은 가능한 공동 행동 조합을 제약 만족 문제(CSP) 형태로 모델링한다. 이를 통해 불가능하거나 비효율적인 행동 조합을 사전에 차단하고, 휴리스틱 함수는 현재까지 축적된 보상과 남은 단계에 대한 상한값을 이용해 탐색 순서를 최적화한다. 특히, 제약 최적화 단계에서 선형 프로그래밍(LP) 혹은 정수 선형 프로그래밍(ILP) 솔버를 활용함으로써, 복잡도가 급격히 증가하는 경우에도 실시간으로 유망한 후보만을 선택한다.

실험에서는 표준 Dec‑MDP 벤치마크(예: Grid‑World, Fire‑Fighting, Cooperative Navigation)와 최근 제안된 대규모 시나리오를 대상으로 기존 최첨단 DecMDP와 Dec‑POMDP 솔버와 비교하였다. 결과는 평균적으로 10배에서 1000배 이상의 계산 시간 감소와, 문제 규모(에이전트 수·시간 단계)가 증가함에 따라 선형에 가까운 확장성을 보였다. 특히, 관측·전이 독립성 가정을 만족하는 실제 로봇 협동 작업에 적용했을 때, 실시간 정책 생성이 가능함을 입증하였다.

이 논문의 핵심 기여는 (1) 최적 정책의 히스토리 독립성을 명확히 증명함으로써 상태·행동 공간을 이론적으로 축소한 점, (2) 제약 최적화를 통한 휴리스틱 탐색 프레임워크를 설계해 Dec‑MDP의 실용적 해결책을 제공한 점, (3) 다양한 실험을 통해 기존 솔버 대비 다량의 계산 효율성 및 확장성을 실증한 점이다. 향후 연구에서는 관측·전이 의존성을 부분적으로 허용하는 하이브리드 모델이나, 학습 기반 휴리스틱과의 결합을 통해 더욱 복잡한 협동 문제에 적용할 가능성을 제시한다.