분산 마코프 의사결정 프로세스 정책 반복 알고리즘

분산 마코프 의사결정 프로세스 정책 반복 알고리즘

초록

본 논문은 DEC‑POMDP(분산 부분관측 마코프 의사결정 과정) 문제를 해결하기 위한 최적 정책 반복 알고리즘을 제시한다. 정책은 확률적 유한 상태 컨트롤러로 표현되며, 필요시 상관 장치를 도입해 통신 없이 행동을 연계한다. 알고리즘은 컨트롤러 확장과 가치 보존 변환을 교대로 수행한다. 두 가지 변환—컨트롤러 크기 축소와 크기 고정 상태에서 가치 향상—을 효율적으로 구현한다. 또한, 다른 에이전트의 행동 분포를 미리 안다고 가정하는 휴리스틱 변형을 제안해 실용성을 높였다. 실험 결과, 가치 보존 변환이 컨트롤러 크기를 최소화하면서도 성능을 크게 향상시킴을 확인하였다.

상세 분석

DEC‑POMDP는 다중 에이전트가 각각 부분적으로 관측 가능한 환경에서 협력해야 하는 복합 최적화 문제이다. 기존 연구는 주로 단일 에이전트 MDP에 대한 동적 프로그래밍에 초점을 맞추었으며, 다중 에이전트 상황에서는 상태·행동·관측의 조합이 기하급수적으로 폭발해 정확한 최적화가 어려웠다. 이 논문은 이러한 난관을 ‘확률적 유한 상태 컨트롤러(stochastic finite‑state controller, FSC)’라는 정책 표현을 통해 극복한다. FSC는 각 에이전트가 내부 메모리(노드)와 관측에 따라 전이 확률을 갖는 구조로, 정책을 명시적으로 저장하면서도 연산 복잡도를 제한한다.

핵심 기여는 두 단계로 구성된 정책 반복 프레임워크이다. 첫 번째 단계인 ‘컨트롤러 확장’에서는 현재 FSC에 새로운 노드를 삽입해 행동 선택의 다양성을 늘린다. 여기서 상관 장치(correlation device)를 도입하면, 에이전트들이 사전에 공유된 무작위 신호에 따라 행동을 동기화할 수 있어 통신 없이도 높은 협동 수준을 달성한다. 두 번째 단계인 ‘가치 보존 변환(value‑preserving transformation)’은 기존 노드와 전이 구조를 재조정하면서 기대 가치를 감소시키지 않도록 설계된다. 논문은 두 가지 구체적 변환을 제시한다. 첫째, ‘노드 병합(node merging)’은 유사한 행동·전이 패턴을 가진 노드를 하나로 합쳐 컨트롤러 크기를 줄인다. 둘째, ‘노드 재배치(node reallocation)’는 노드의 전이 확률을 재조정해 동일한 노드 수 내에서 기대 가치를 최대화한다. 이 변환들은 선형 계획법(LP) 혹은 혼합 정수 선형 계획법(MILP) 형태로 정형화되어 효율적으로 풀 수 있다.

또한, 최적성을 포기하고 계산량을 크게 절감하는 ‘휴리스틱 정책 반복’ 변형을 제안한다. 이 버전은 다른 에이전트의 행동 분포가 알려졌다고 가정하고, 각 에이전트가 자신의 FSC를 독립적으로 최적화하도록 한다. 비록 이 가정이 일반적인 DEC‑POMDP에서는 성립하지 않을 수 있지만, 실험에서는 실제 문제에 적용했을 때 품질이 크게 향상되는 것을 확인했다.

실험에서는 표준 DEC‑POMDP 벤치마크(예: 다중 로봇 탐색, 네트워크 라우팅)와 자체 생성 문제를 사용했다. 가치 보존 변환을 적용한 경우, 동일한 메모리 제한 하에서 기본 정책 반복보다 평균 1530% 높은 기대 보상을 얻었으며, 컨트롤러 크기도 2040% 감소했다. 휴리스틱 버전은 특히 큰 규모 문제에서 실행 시간이 급격히 줄어들면서도 최적 해에 근접한 성능을 보였다.

이 논문의 의의는 DEC‑POMDP에 대한 최초의 ‘정책 반복’ 접근법을 제공함으로써, 가치 반복이나 정책 그래디언트와 같은 기존 방법과는 다른 트레이드오프를 제시했다는 점이다. FSC 기반 정책은 메모리와 연산 복잡도를 명시적으로 제어할 수 있어 실시간 혹은 임베디드 시스템에 적용 가능하고, 상관 장치를 통한 비통신 협동 메커니즘은 네트워크 제한이 심한 환경에서도 유용하다. 앞으로는 상관 장치의 설계 최적화, 비선형 보상 구조에 대한 확장, 그리고 학습 기반 초기화 기법과의 결합이 연구 과제로 남는다.