정성적 MDP와 POMDP: 규모순 근사 이론

정성적 MDP와 POMDP: 규모순 근사 이론

초록

본 논문은 확률과 보상이 정량적으로 주어지지 않을 때, 순서‑규모(오더‑오브‑매그니튜드) 근사를 이용해 MDP와 POMDP를 정성적으로 모델링하는 프레임워크를 제시한다. ε‑세만틱스와 유사한 κ‑순위 체계를 도입해 확률을 “극히 작음” 수준으로 구분하고, 효용도 같은 규모로 근사한다. 이를 통해 기존 기대효용 최적화와 구조적으로 일치하면서도 전통적인 수치 연산 없이도 계획 알고리즘을 적용할 수 있다.

상세 분석

이 논문은 정량적 정보가 부족하거나 불확실성이 극히 큰 상황에서 의사결정 모델을 구성하기 위한 새로운 정성적 접근법을 제시한다. 핵심 아이디어는 확률과 효용을 ε‑세만틱스와 유사한 ‘규모순서(오더‑오브‑매그니튜드)’로 표현하는 것이다. 구체적으로, 확률 p는 ε의 거듭 제곱 형태인 ε^k 로 근사되며, 여기서 k는 정수인 κ‑순위(rank)이다. k가 클수록 사건이 발생할 확률이 ‘극히 작음’으로 간주된다. 효용 역시 비슷한 방식으로 ε^u 로 표현해, 효용의 상대적 크기만을 비교한다.

이러한 정성적 표현은 전통적인 베이즈 규칙과 벨만 방정식을 그대로 적용할 수 있게 만든다. 정성적 MDP에서는 상태‑행동 쌍에 대한 기대 효용을 κ‑순위와 ε‑지수의 연산으로 계산하고, 최소 κ‑순위를 갖는 행동을 최적으로 선택한다. 이는 “가장 큰 기대 효용”을 찾는 전통적 최대 기대 효용(Maximum Expected Utility) 원칙과 구조적으로 동등하다.

POMDP 확장에서는 관측 모델 역시 κ‑순위로 표현하고, belief state를 정성적 확률 분포(κ‑순위 벡터)로 유지한다. 관측 후 belief 업데이트는 ε‑지수 연산을 이용해 간단히 수행되며, 정성적 가치 반복(value iteration)이나 정책 반복(policy iteration) 알고리즘을 그대로 적용할 수 있다.

알고리즘적 측면에서 저자들은 정성적 벨만 연산이 기존 수치 연산보다 복잡도가 낮으며, 특히 상태·행동·관측 공간이 큰 문제에서 메모리와 시간 절약이 가능함을 강조한다. 또한, κ‑순위는 부분 순서(partial order) 구조를 갖기 때문에, 최적 정책 탐색 시 불필요한 후보를 조기에 배제할 수 있다.

이론적 기여는 두 가지이다. 첫째, ε‑세만틱스와 κ‑순위 체계를 MDP/POMDP에 정식으로 통합해 정성적 기대 효용 이론을 구축했다. 둘째, 정성적 모델이 기존 수치 모델의 한계(정확한 확률·보상 추정 불가)에도 불구하고, 최적 정책을 동일한 구조적 원칙에 따라 도출할 수 있음을 증명했다.

한계점으로는 κ‑순위의 선택이 문제마다 주관적일 수 있다는 점, 그리고 ε의 실제 값이 모델에 직접적으로 나타나지 않아 정밀한 민감도 분석이 어려운 점을 들 수 있다. 또한, 정성적 근사가 너무 거친 경우(예: κ‑값이 모두 동일)에는 정책 구분력이 상실될 위험이 있다. 향후 연구에서는 κ‑순위 자동 추정 방법과 정성·정량 혼합 모델을 탐색할 필요가 있다.