이산·연속 상태 마코프 의사결정 과정의 기호적 동적 프로그래밍

초록

본 논문은 이산 및 연속 상태를 동시에 갖는 마코프 의사결정 과정(DC‑MDP)에 대해 기호적 동적 프로그래밍(SDP)을 확장한다. 연속 변수 확장형 대수적 결정 다이어그램(XADD)을 도입해 값 함수의 정확한 조각별 표현을 압축하고, 제약 기반 가지치기로 효율성을 높인다. 실험을 통해 선형·비선형 조각화된 가치 함수에 대해 최초의 최적 자동 해법을 제공한다.

상세 분석

이 논문은 기존 SDP가 다루기 어려웠던 연속 변수와 복합적인 조각화 구조를 가진 DC‑MDP에 대한 해법을 제시한다. 핵심 기여는 XADD(Extended Algebraic Decision Diagram)이다. XADD는 전통적인 ADD에 연속 변수와 부등식 조건을 결합해, 각 노드가 “if‑then‑else” 형태의 선형 또는 비선형 제약식으로 분할된 영역을 나타낸다. 이렇게 하면 값 함수가 하이퍼‑직육면체 형태에 국한되지 않고, 다항식, 지수함수 등 다양한 연산자를 포함하는 조각별 함수로 정확히 표현될 수 있다.

논문은 XADD 위에서 수행되는 기본 연산—덧셈, 곱셈, 최대화, 적분—을 정의하고, 특히 연속 변수에 대한 기대값 계산을 위해 심볼릭 적분을 적용한다. 적분 과정에서 변수 치환과 경계 조건을 자동으로 추출해 조각을 재분할하고, 불필요한 조각은 제약 기반 가지치기(pruning)로 제거한다. 이 가지치기는 논리적 불일치나 값이 영(0)인 영역을 식별해 XADD의 크기를 급격히 감소시킨다.

알고리즘적 측면에서 저자들은 SDP의 백워드 업데이트를 XADD 연산 체인으로 구현한다. 각 단계에서 행동 선택을 위한 “max” 연산은 XADD의 비교 연산으로 변환되며, 이는 조각별 함수의 교차점을 찾아 새로운 분할을 생성한다. 결과적으로 값 함수는 매 반복마다 정확히 갱신되며, 근사화 없이 최적 정책을 도출한다.

실험에서는 연속 변수 2~4개와 복합적인 비선형 보상 함수를 가진 여러 베치케이스를 사용했다. XADD 기반 SDP는 기존의 선형 조각화 전용 방법보다 메모리와 시간 면에서 우수했으며, 특히 비선형 조각을 포함한 경우에도 정확한 최적값을 유지했다. 또한, 제약 기반 가지치기가 없는 경우 XADD 크기가 급증해 계산이 불가능해지는 반면, 가지치기를 적용하면 실용적인 규모로 유지된다.

이 논문은 DC‑MDP에 대한 최적 해법을 기호적으로 제공함으로써, 로봇 제어, 자동화된 물류, 재무 최적화 등 연속·이산 혼합 상태가 필수적인 분야에 직접 적용 가능하도록 만든다. 다만, 현재 구현은 다항식·선형 제약식에 최적화돼 있어 고차 비선형 함수나 복잡한 확률 분포(예: 가우시안 혼합)에는 추가적인 확장이 필요하다.