연속 상태 마코프 의사결정 문제를 위한 구조적 동적 프로그래밍

연속 상태 마코프 의사결정 문제를 위한 구조적 동적 프로그래밍

초록

본 논문은 연속 상태 변수를 갖는 마코프 의사결정 과정(MDP)에서 값 함수가 동일한 영역을 동적으로 구분함으로써 구조를 활용하는 알고리즘을 제시한다. 처음에는 구간별 상수값 표현을, 이후에는 구간별 선형값 표현을 도입해 POMDP 기법을 차용해 효율적인 선형면 관리 방법을 설계한다. 복잡하고 구조화된 문제에 대해 최적 해를 빠르게 도출한다는 실험 결과를 제시한다.

상세 분석

이 논문은 연속 상태 공간을 갖는 MDP에서 전통적인 격자화 방식이 초래하는 차원의 저주를 회피하기 위해, 값 함수가 동일한 영역을 “동적 파티셔닝”하는 방법을 도입한다. 초기 단계에서는 각 파티션을 하나의 상수값으로 근사하는 piecewise‑constant representation을 사용한다. 이때 동적 프로그래밍(DP) 단계마다 베벨 연산(베일리 백업)을 수행하면서, 새로운 파티션이 필요하면 기존 파티션을 교차하고, 동일한 값이 할당된 영역은 합쳐서 파티션 수를 억제한다. 핵심 아이디어는 값 함수가 실제로는 고차원 연속 함수이지만, 많은 실세계 문제에서는 특정 변수 조합에 대해 평탄하거나 선형적인 형태를 보인다는 점이다.

그 다음 단계에서는 piecewise‑linear representation을 도입한다. 여기서는 각 파티션 내부에서 값 함수를 다차원 선형 함수(하이퍼플레인)로 표현한다. 선형 함수들의 집합을 효율적으로 관리하기 위해 POMDP에서 사용되는 α‑벡터 집합과 유사한 구조를 차용한다. 즉, 각 파티션은 여러 α‑벡터(선형 함수)와 그 적용 영역을 정의하는 다각형(또는 다면체)으로 구성된다. 백업 연산 시에는 보상 함수와 전이 확률이 선형인 경우, 새로운 α‑벡터를 선형 결합으로 생성하고, 기존 파티션과의 교차를 통해 영역을 재분할한다. 이 과정에서 불필요한 파티션을 병합하거나, 지배되지 않는 α‑벡터를 제거하는 “프루닝” 절차를 적용해 복잡도를 통제한다.

알고리즘의 복잡도 분석에서는 파티션 수가 문제의 내재적 구조에 의해 결정된다는 점을 강조한다. 즉, 구조가 풍부할수록 파티션 수는 제한적이며, 이는 연산량과 메모리 사용량을 크게 감소시킨다. 실험에서는 연속 변수 23개와 복합 보상 구조를 가진 도메인(예: 로봇 팔의 연속 제어, 연료 관리 문제 등)에서 기존의 격자 기반 DP와 비교해 12 차수의 시간·공간 절감 효과를 보였다.

이 논문의 주요 공헌은 (1) 연속 MDP에 대한 동적 파티셔닝 프레임워크 제시, (2) POMDP α‑벡터 기법을 연속 DP에 적용한 선형 파티션 관리 기법, (3) 구조적 복잡도와 알고리즘 효율성 사이의 정량적 관계를 실험적으로 입증한 점이다. 특히, 선형 파티션을 이용한 접근법은 보상·전이 모델이 선형인 경우에 최적 해를 정확히 유지하면서도, 기존의 근사 방법보다 더 높은 해상도를 제공한다는 점에서 의미가 크다. 향후 연구에서는 비선형 파티션(예: 다항식 혹은 신경망 기반)과의 통합, 그리고 온라인 학습 환경에서의 파티션 적응 메커니즘을 탐색할 여지가 있다.