이중선형계획을 활용한 다중에이전트 계획

초록

본 논문은 두 에이전트가 협력·경쟁하는 다양한 문제를 이중선형(bilinear) 프로그램 형태로 변환하고, 이를 해결하기 위한 연속 근사 알고리즘을 제시한다. 기존 최첨단인 coverage set 알고리즘에 비해 평균 4자리 수의 연산량 감소와 언제든 중단 가능한 온라인 성능 한계 제공이 특징이다. 또한 자동 차원 축소 기법을 도입해 적용 범위를 넓히고, 특정 이중선형 프로그램의 구조적 분석 방법을 제시한다.

상세 분석

이 논문은 다중에이전트 계획 문제를 이중선형 프로그램(bilinear program, BP)으로 모델링한다는 근본적인 아이디어에서 출발한다. 두 에이전트의 정책을 각각 확률분포 형태의 변수 x와 y 로 표현하고, 공동 보상 함수는 x와 y의 외적 형태인 xᵀCy 로 나타낸다. 여기서 C는 보상 행렬이며, 제약식은 각 에이전트의 정책이 마코프 결정 과정(MDP)의 흐름을 만족하도록 선형 제약을 부과한다. 이러한 구조는 기존의 Dec-POMDP, 협력 게임, 경쟁 게임 등 다양한 두 에이전트 환경에 자연스럽게 매핑될 수 있다.

제안된 연속 근사 알고리즘은 “Successive Approximation”이라 불리며, 기본 아이디어는 고정된 y에 대해 x를 선형 프로그램으로 최적화하고, 그 결과를 이용해 y를 다시 최적화하는 과정을 교대로 수행하는 것이다. 이때 각 단계에서 얻어지는 최적값은 전역 최적값에 대한 상한·하한을 제공한다. 특히, 알고리즘은 현재까지 발견된 하한과 상한 사이의 갭을 실시간으로 계산해 온라인 성능 보장을 가능하게 한다. 이는 기존 coverage set 알고리즘이 제공하지 못하던 중요한 특징이다.

알고리즘의 효율성은 두 가지 주요 기법에 의해 크게 향상된다. 첫째, “자동 차원 축소”(Automatic Dimensionality Reduction) 기법이다. 보상 행렬 C의 특이값 분해(SVD)를 수행해 주요 특이값에 대응하는 저차원 서브스페이스만을 유지하고, 나머지 차원은 무시한다. 이렇게 하면 변수 공간이 급격히 감소해 각 선형 프로그램의 규모가 작아진다. 둘째, “프라그마-정규화”(γ‑regularization) 기법을 도입해 수렴성을 보장한다. 이는 가치 함수의 할인 요인 γ를 이용해 근사 과정에서 발생할 수 있는 발산을 억제한다.

실험 결과는 두 가지 주요 도메인, 즉 “협력 로봇 탐색”과 “경쟁형 자원 할당”에서 수행되었다. 두 도메인 모두 기존 방법에 비해 평균 10⁴배 이상의 계산 시간 절감 효과를 보였으며, 최적 해와의 차이는 0.1% 이하로 매우 근접했다. 특히 차원 축소를 적용했을 때는 원래 차원이 200×200 수준이던 문제가 20×20 수준으로 축소돼 메모리 사용량도 크게 감소했다.

이 논문의 주요 기여는 다음과 같다. (1) 광범위한 두 에이전트 문제를 이중선형 프로그램으로 통합 모델링한 이론적 프레임워크, (2) 상한·하한을 실시간 제공하며 언제든 중단 가능한 연속 근사 알고리즘, (3) 자동 차원 축소와 γ‑정규화를 결합한 효율적 구현, (4) 실험을 통한 실용성 검증 및 기존 최첨단 방법 대비 4자리 수의 속도 향상. 이러한 기여는 다중에이전트 계획 분야에서 복잡도 장벽을 크게 낮추고, 실시간 시스템이나 제한된 계산 자원을 가진 로봇 플랫폼에 직접 적용 가능하도록 만든다.