계층적 분해 MDP에서의 분산 계획

초록

이 논문은 다중 에이전트 시스템을 위한 분산 계획 알고리즘을 제안한다. 시스템을 작은 서브시스템으로 분할하고, 서브시스템 간의 계층적 연결 구조를 이용해 로컬 보상 함수 형태의 메시지를 교환함으로써 전역적으로 일관된 정책을 도출한다. 각 에이전트는 자신의 서브시스템만 모델링하면 되며, 동일한 구조를 가진 서브트리는 계획과 메시지를 재사용해 계산 효율을 높인다.

상세 분석

본 연구는 대규모 마코프 결정 과정(MDP)을 계층적 팩터드 구조로 분해하고, 각 팩터를 독립적인 서브시스템으로 취급한다는 핵심 아이디어에 기반한다. 서브시스템들은 제한된 상태·행동 공간을 가지므로 로컬 선형 계획(LP)으로 최적값 함수를 계산할 수 있다. 중요한 점은 서브시스템 간의 상호작용을 “보상 메시지”라는 형태로 추상화한다는 것이다. 상위 서브시스템은 하위 서브시스템에게 기대 보상(또는 비용) 정보를 전달하고, 하위는 이를 자신의 로컬 LP에 추가하여 최적 정책을 재계산한다. 이 과정은 메시지 전달 알고리즘을 통해 반복되며, 수렴 시 전역적으로 일관된 가치 함수와 정책이 확보된다.

알고리즘의 두드러진 장점은 (1) 분산 계산: 모든 연산이 로컬 LP에 국한돼 각 에이전트가 독립적으로 수행한다. (2) 계층적 구조 활용: 트리 형태의 서브시스템 연결을 이용해 메시지 흐름을 정의하므로, 복잡도가 전체 상태공간의 지수적 증가에 비해 선형에 가깝게 유지된다. (3) 재사용 가능성: 동일한 서브트리 구조가 여러 번 등장하면, 이전에 계산된 정책·메시지를 그대로 복사해 재사용함으로써 시간·메모리 절감을 이룬다.

이론적 측면에서는 전체 MDP의 최적값 함수가 서브시스템 가치 함수들의 합으로 표현될 수 있음을 보이며, 메시지 전달이 라그랑주 승수와 동일시될 수 있음을 증명한다. 즉, 각 로컬 LP의 제약식에 라그랑주 승수를 부여해 전역 제약을 만족시키는 형태다. 수렴 보장은 메시지 업데이트가 비감소(monotonic)이며, 유한한 상태·행동 공간에서 최적해에 도달함을 보인다.

실험에서는 로봇 팀 협업, 전력망 관리 등 다양한 도메인에 적용해 기존 중앙집중식 플래너 대비 계산 시간과 메모리 사용량이 크게 감소함을 확인한다. 특히, 서브시스템이 10개 이상인 경우에도 선형적인 스케일링을 보이며, 동일 구조를 가진 서브트리의 재사용 효과가 전체 실행 시간을 30 % 이상 단축한다는 결과가 눈에 띈다.

전체적으로 이 논문은 복잡한 다중 에이전트 MDP를 구조적 분해와 메시지 기반 협조를 통해 실용적인 분산 플래닝 프레임워크로 전환하는 데 성공했으며, 이론적 엄밀함과 실험적 검증을 동시에 제공한다.