인식되지 않은 행동을 포함한 마코프 결정 과정

초록

본 논문은 전통적인 마코프 결정 과정(MDP)이 가정하는 완전한 상태·행동 인식의 한계를 넘어, 의사결정자가 모든 가능한 행동을 사전에 알지 못하는 상황을 모델링하는 MDPU(framework)를 제안한다. 저자는 DM이 근접 최적 정책을 학습할 수 있는 조건을 완전하게 규정하고, 가능할 경우 다항 시간 내에 근접 최적 해를 찾는 알고리즘을 설계한다. 특히, 근접 최적 해의 존재 여부와 다항 시간 가용성을 명확히 구분한다.

상세 분석

이 논문은 기존 MDP 모델이 “완전 인식(full awareness)”을 전제로 한다는 근본적인 가정을 비판한다. 실제 로봇 제어나 경제 시스템에서는 새로운 행동이 외부 탐색이나 실험을 통해서만 발견될 수 있다. 이를 반영하기 위해 저자는 MDPU(Markov Decision Processes with Unawareness)라는 새로운 프레임워크를 정의한다. MDPU는 기본 MDP와 동일하게 상태 집합 S, 전이 확률 P, 보상 함수 R을 갖지만, 행동 집합 A는 DM이 현재 인식하고 있는 부분 A_t와 아직 인식되지 않은 잠재 행동 A^* 로 구분된다. DM은 “탐색 행동(exploratory action)”을 수행함으로써 새로운 행동을 발견할 수 있으며, 이때 탐색 비용과 발견 확률이 모델에 명시된다.

핵심 이론적 기여는 두 가지이다. 첫째, DM이 근접 최적 정책을 학습할 수 있는 필요충분조건을 정량화한다. 저자는 “발견 가능성(discoverability)”과 “탐색 효율성(exploration efficiency)”이라는 두 개념을 도입한다. 발견 가능성은 모든 잠재 행동이 유한한 기대 탐색 횟수 내에 발견될 확률이 1이어야 함을 의미하고, 탐색 효율성은 탐색 비용이 전체 보상에 비해 하위 다항식 수준이어야 함을 의미한다. 이 두 조건이 동시에 만족될 때만, 알고리즘이 근접 최적 해를 보장한다.

둘째, 이러한 조건이 충족될 경우, 다항 시간 내에 근접 최적 정책을 학습하는 구체적인 알고리즘을 제시한다. 알고리즘은 기존 강화학습 기법인 UCRL(Upper Confidence Reinforcement Learning)과 탐색 행동의 메타-레벨 제어를 결합한다. 구체적으로, 매 단계마다 현재 인식된 행동 집합에 대해 최적 정책을 계산하고, 동시에 탐색 행동을 선택할 확률을 동적으로 조정한다. 탐색 행동은 “잠재 행동 발견 확률”에 기반한 베이즈 업데이트를 통해 그 효용을 평가한다. 이 과정에서 저자는 탐색과 활용 사이의 균형을 유지하기 위한 새로운 “탐색 보너스 함수”를 설계했으며, 이를 통해 전체 학습 복잡도가 O(poly(|S|,|A_t|,1/ε,log(1/δ))) 로 제한됨을 증명한다.

또한, 저자는 MDPU가 기존 MDP와 어떻게 특수화되는지를 논의한다. 모든 행동이 초기부터 인식된 경우, MDPU는 전통적인 MDP와 동일해지며, 제시된 알고리즘은 기존 최적 강화학습 알고리즘과 동일한 성능 보장을 제공한다. 반대로, 행동 인식이 매우 제한적인 경우, 탐색 비용이 급증하여 근접 최적 해를 찾는 것이 불가능함을 보이며, 이는 “불가능성 정리(impossibility theorem)”로 정리된다.

실험 부분에서는 로봇 팔 조작과 재무 포트폴리오 관리 두 가지 도메인에 MDPU 모델을 적용하였다. 실험 결과, 탐색 행동을 명시적으로 모델링한 알고리즘이 전통적인 강화학습 대비 평균 보상이 15~30% 향상되었으며, 특히 새로운 행동이 중요한 역할을 하는 환경에서 학습 속도가 크게 개선되었다.

전체적으로 이 논문은 행동 인식의 불완전성을 정형화하고, 이를 극복하기 위한 이론적·알고리즘적 토대를 제공한다는 점에서 강화학습 및 의사결정 이론에 중요한 기여를 한다.