마르코프 의사결정 과정 자동 추상화로 계획 속도 크게 향상
초록
이 논문은 확률적 최단 경로(SSP) 문제에 대해 상태와 행동을 옵션 기반으로 클러스터링한 다층 추상화를 자동으로 생성하고, 가장 높은 수준의 추상화에서 정책을 구한 뒤 단계적으로 원래 문제로 복원함으로써 기존 MDP 솔버 대비 100배 가량 빠른 계획을 달성하면서도 근접 최적성을 보장한다. 또한 추상화로 인한 최적성 손실에 대한 이론적 경계도 제시한다.
상세 분석
본 연구는 SSP(확률적 최단 경로) 문제를 대상으로, 상태 공간을 완전 열거할 수 있는 중규모 도메인에서 실시간 계획이 요구되는 상황을 가정한다. 기존의 PR‑LRTS와 같은 클리크 기반 추상화는 결정론적 환경에 적합했지만, 확률적 전이와 비용 구조를 갖는 MDP에서는 옵션(option)이라는 고수준 행동을 활용해야 한다는 점을 강조한다. 논문은 먼저 상태를 클러스터(추상 상태)로 묶고, 각 클러스터 간 전이를 구현하는 옵션을 자동으로 생성한다. 옵션은 초기 상태 집합 I, 내부 정책 π, 종료 조건 ψ 로 정의되며, 클러스터 A에서 클러스터 B로 이동할 때 평균 비용과 전이 확률이 클러스터 내 모든 상태에 대해 거의 동일하도록 설계된다. 이를 위해 각 클러스터 내부에서 비용·전이 확률의 분산을 최소화하는 파티셔닝을 수행하고, 필요시 “목표 접근” 옵션을 별도로 학습해 목표 클러스터에서 실제 목표 상태로 안전하게 이동한다.
이론적 기여는 두 단계로 나뉜다. 첫째, 옵션 기반 추상화가 원래 MDP의 정책과 어떻게 근사되는지를 정량화하는 새로운 정리(Theorem 1)를 제시한다. 여기서는 상태 집계 연산 A와 확장 연산 E를 이용해 원래 가치 함수 vπ와 추상 정책의 확장 가치 함수 E ṽπ 사이의 차이를 상한한다. 상한은 (i) 상태 집계로 인한 손실, (ii) 옵션이 모사하는 전이·비용의 차이 επ,π̃, (iii) 클러스터 내 무작위 초기 상태 선택이 초래하는 λπ 라는 세 요소로 분해된다. 둘째, 위 상한을 최적 정책 π*에 적용하면 추상화 품질이 클러스터 내 가치 편차, 전이 확률의 균일성, 그리고 옵션 설계 정확도에 의존한다는 결론을 얻는다.
알고리즘적 측면에서는 (1) 클러스터링 단계에서 그래프 기반 커뮤니티 탐지를 변형해 전이 비용이 유사한 상태들을 묶고, (2) 각 클러스터 쌍에 대해 샘플 기반 시뮬레이션을 수행해 옵션의 기대 비용과 성공 확률을 추정한다. 옵션이 충분히 신뢰할 수 있으면 해당 추상 행동을 추상 MDP에 추가한다. 이후 다층 추상화 구조를 구축해 가장 상위 레벨에서 목표 클러스터까지의 경로를 계획하고, 하위 레벨로 내려가며 옵션을 실제 행동 시퀀스로 전개한다. 실험에서는 2‑3 단계의 추상화를 사용해 평균 100배 이상의 속도 향상을 기록했으며, 최적성 손실은 5 % 이하에 머물렀다.
전체적으로 이 논문은 옵션 기반 추상화라는 새로운 패러다임을 제시하고, 이를 자동화하는 구체적 절차와 이론적 보장을 동시에 제공함으로써, 실시간 혹은 제한된 계산 자원 하에서 확률적 계획 문제를 해결하려는 연구자와 엔지니어에게 실용적인 도구와 통찰을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기