마르코프 의사결정 과정에서 비결정론적 정책

초록

마르코프 결정 과정(MDP)에서 전통적인 결정론적 정책은 사용자의 선택 여지를 제한한다. 본 논문은 최적에 근접하면서도 여러 행동을 허용하는 비결정론적 정책을 제안하고, 이를 계산하기 위한 두 가지 알고리즘을 제시한다. 합성 및 실제 데이터셋 실험과 인간 피험자를 대상으로 한 웹 탐색 과제에서, 비결정론적 힌트를 받은 인간이 가장 높은 성과를 보였다.

상세 분석

본 연구는 강화학습과 의사결정 지원 시스템 사이의 격차를 메우기 위해 비결정론적 정책(non‑deterministic policy)이라는 새로운 개념을 도입한다. 전통적인 MDP 해법은 각 상태에 대해 하나의 최적 행동을 선택하도록 설계되어 있어, 의료나 재무와 같이 전문가의 판단이 중요한 분야에서는 지나치게 처방적이다. 저자들은 “ε‑optimal”이라는 허용 오차 범위 내에서, 각 상태마다 허용 가능한 행동 집합을 제공함으로써 사용자가 상황에 맞게 선택할 자유를 보장한다.

정의적으로, 비결정론적 정책 π̂는 상태 s에 대해 행동 집합 Â(s)⊆A를 반환한다. 정책의 품질은 모든 a∈Â(s)에 대해 Q*(s,a)≥V*(s)−ε을 만족하는지 여부로 평가된다. 여기서 Q와 V는 각각 최적 행동‑가치와 상태‑가치를 의미한다. 이 제약을 만족시키면서 Â(s)의 크기를 최대화하는 것이 목표이며, 이는 “가능한 행동의 폭을 넓히되 최적성 손실을 제한한다”는 실용적 요구와 일치한다.

알고리즘 측면에서 저자는 두 가지 접근법을 제시한다. 첫 번째는 선형계획법(LP)을 이용해 각 상태별 행동 집합을 전역적으로 최적화하는 방법이다. 목적함수는 전체 정책의 행동 수를 최대화하고, 제약조건은 ε‑optimal 보장을 위한 선형 부등식으로 구성된다. 이 방법은 정확하지만, 상태·행동 공간이 큰 경우 계산량이 급증한다. 두 번째는 휴리스틱 탐색 기반의 그리디 알고리즘으로, 각 상태에서 Q값을 내림차순으로 정렬한 뒤 ε 한계 내에서 가능한 행동을 차례로 추가한다. 이 방법은 시간 복잡도가 O(|S|·|A|log|A|)에 불과해 대규모 문제에 적용 가능하지만, 최적성 보장은 약간 낮아질 수 있다.

실험에서는 합성 MDP와 실제 의료 진단 데이터, 그리고 웹 페이지 전이 모델을 사용해 두 알고리즘의 실행 시간과 정책 크기를 비교하였다. LP 기반 방법은 작은 인스턴스에서 정책 크기가 가장 크게 나오지만, 10⁴ 상태 규모에서는 메모리 초과가 발생했다. 반면 그리디 방법은 10⁶ 상태까지도 몇 초 내에 해결했으며, 정책 크기도 실용적인 수준을 유지했다.

인간 피험자를 대상으로 한 웹 탐색 실험에서는 세 그룹을 두었다: (1) 인간만, (2) 컴퓨터가 제시하는 결정론적 최적 경로, (3) 비결정론적 정책이 제공하는 행동 힌트. 결과는 비결정론적 힌트를 받은 그룹이 평균 탐색 시간과 성공률 모두에서 유의하게 우수했으며, 특히 복잡한 페이지 구조에서 사용자는 힌트를 참고해 상황에 맞는 선택을 자유롭게 할 수 있었다. 이는 정책이 단순히 “정답”을 제시하는 것이 아니라, “가능한 선택지”를 제공함으로써 인간의 판단력을 보완한다는 점을 시사한다.

본 논문의 핵심 기여는 (1) ε‑optimal 비결정론적 정책의 형식적 정의, (2) 이를 효율적으로 계산하는 두 알고리즘, (3) 실제 인간‑컴퓨터 협업 시나리오에서의 실증적 효과 검증이다. 한계점으로는 정책의 행동 집합이 너무 넓어지면 사용자가 선택에 부담을 느낄 수 있다는 점과, ε 값 설정이 도메인에 따라 민감하게 작용한다는 점을 들 수 있다. 향후 연구에서는 동적 ε 조정, 사용자 선호 모델링, 그리고 연속 상태·행동 공간으로의 확장을 제안한다.