분산 POMDP를 위한 개선된 메모리 제한 동적 프로그래밍

초록

본 논문은 기존 메모리 제한 동적 프로그래밍(MBDP) 알고리즘을 일반화하고, 관측 수에 대한 복잡도를 지수형에서 다항형으로 낮추는 새로운 근사 기법을 제안한다. 새로운 근사에 대한 오류 상한을 이론적으로 도출하고 수렴 특성을 분석한다. 또한 규모가 큰 새로운 벤치마크 문제를 도입해 실험을 수행했으며, 개선된 MBDP가 높은 관측 차원에서도 실용적인 성능을 유지함을 보였다.

상세 분석

MBDP는 분산 부분관측 마코프 결정 과정(Dec-POMDP)에서 긴 시간 지평을 다룰 때 메모리와 계산량을 제한하기 위해 정책 트리를 단계별로 선택적으로 보존하는 기법이다. 기존 구현에서는 각 단계에서 모든 가능한 관측 결과에 대해 정책을 확장해야 했으며, 이 과정이 관측 수 O(|Ω|)에 대해 지수적으로 증가했다. 논문은 이 병목을 “관측 샘플링”과 “대표 관측 집합 선택”이라는 두 가지 전략으로 해결한다. 첫째, 각 에이전트가 실제 실행 중에 마주칠 가능성이 높은 관측을 사전 확률에 기반해 샘플링하고, 샘플된 관측만을 사용해 정책 트리를 확장한다. 둘째, 샘플링된 관측을 클러스터링하여 대표 관측을 선정함으로써 동일한 정책을 여러 관측에 재사용한다. 이 과정에서 정책 선택 기준은 기존 MBDP와 동일하게 가치 함수 상한을 이용하지만, 선택된 대표 관측에 대해만 가치 평가를 수행한다.

이러한 근사는 관측 차원에 대한 복잡도를 O(|Ω|^k) → O(k·|Ω|) 형태로 낮추며, 여기서 k는 샘플링된 관측 수(통상적으로 상수)이다. 논문은 이 근사가 최적 정책과의 차이를 제한된 ε 이하로 보장한다는 오류 상한을 정리 1에 제시한다. 오류는 샘플링 확률 분포와 클러스터링 오차에 의해 결정되며, 샘플 수를 충분히 크게 잡으면 ε을 임의로 작게 만들 수 있다. 또한, 반복적인 정책 확장 과정에서 가치 함수가 단조히 증가함을 보이며, 수렴 속도는 샘플링 품질에 비례한다는 정리 2를 제시한다.

실험에서는 기존 MBDP가 10~15 단계에서 메모리 초과를 일으키는 반면, 개선된 알고리즘은 30 단계까지 안정적으로 실행된다. 특히, 새로운 대규모 벤치마크인 “Multi‑Robot Warehouse” 문제에서 관측 수가 20배 증가했음에도 불구하고 평균 정책 품질이 5% 이내로 감소했으며, 실행 시간은 40% 정도 절감되었다. 이러한 결과는 관측 차원에 대한 다항형 복잡도 전환이 실제 문제에 적용 가능함을 강력히 시사한다.

본 연구는 MBDP의 확장성을 근본적으로 바꾸는 기여를 하며, 특히 센서 노이즈가 큰 로봇 협업, 무인 항공기 임무 계획 등 관측 공간이 폭발적으로 커지는 도메인에 직접적인 영향을 미친다. 향후 연구에서는 샘플링 전략을 강화학습 기반으로 자동 조정하거나, 클러스터링 단계에 그래프 기반 메트릭을 도입해 대표 관측 선택의 최적성을 높이는 방향이 기대된다.