보상 불확실성 MDP를 위한 기하학적 탐색 알고리즘

초록

본 논문은 보상 함수가 불확실한 마코프 결정 과정(RMDP)에서 최소최대 후회(minimax regret) 기준의 강건 정책을 찾기 위해, 정책이 최적이 될 수 있는 보상 영역을 기하학적으로 탐색하는 효율적인 알고리즘을 제안한다. 정책별 보상 다각형을 이용해 전체 최적 정책 집합을 정확히 식별하고, 근사 버전을 통해 계산량을 크게 줄인다. 실험 결과, 기존 방법에 비해 실행 시간이 몇 자릿수 이상 개선됨을 보인다.

상세 분석

본 연구는 보상 불확실성(MDP) 문제에서 핵심 난제인 “어떤 보상 함수에 대해 어떤 정책이 최적이 될 수 있는가”를 정확히 파악하는 과정을 기하학적으로 재구성한다. 저자들은 각 정책이 최적이 될 수 있는 보상 파라미터 공간을 선형 부등식으로 정의하고, 이를 다각형(또는 고차원 폴리토프) 형태로 표현한다. 이러한 폴리토프는 보상 파라미터가 변할 때 정책의 우위 관계가 바뀌는 경계면을 명시적으로 드러내며, 전체 정책 집합은 이 폴리토프들의 합집합으로 나타난다. 기존 연구는 주로 선형 계획법(LP)이나 혼합 정수 프로그램(MIP)을 반복 호출해 정책 후보를 탐색했지만, 탐색 과정에서 동일한 경계면을 여러 번 계산하는 비효율성이 있었다.

저자들은 “기하학적 탐색(Geometric Traversal)”이라는 절차를 고안해, 현재까지 발견된 폴리토프의 외곽을 따라 새로운 보상 영역을 탐색한다. 구체적으로, 현재 폴리토프 집합의 볼록 껍질(convex hull)을 계산하고, 그 껍질의 각 면에 대해 해당 면에 접하는 보상 벡터를 찾는다. 이 보상 벡터는 아직 탐색되지 않은 정책이 최적이 될 가능성이 있는 영역을 정의하므로, 새로운 정책을 생성하고 그 정책에 대한 폴리토프를 추가한다. 이 과정을 반복하면, 모든 가능한 최적 정책이 포함될 때까지 탐색이 종료된다.

알고리즘의 핵심 효율성은 (1) 폴리토프를 직접 다루어 중복 계산을 방지하고, (2) 볼록 껍질 업데이트를 점진적으로 수행해 매 반복마다 전체 LP를 다시 푸는 비용을 크게 감소시킨다는 점이다. 또한, 근사 버전에서는 폴리토프의 면을 샘플링하거나, 일정 기준 이하의 면을 무시함으로써 탐색 깊이를 제한한다. 이 경우, 최적 정책 집합을 완전하게 복원하지는 못하지만, 실용적인 시간 안에 충분히 좋은 근사 정책을 얻을 수 있다.

실험에서는 표준 보상 불확실성 MDP 벤치마크와 대규모 랜덤 생성 인스턴스를 사용해 기존 최소최대 후회 기반 방법(예: Bounded Regret, Mixed Integer Programming)과 비교하였다. 결과는 평균적으로 10배에서 100배 이상의 실행 시간 감소를 보였으며, 근사 알고리즘은 1% 미만의 후회 차이로 거의 최적에 근접했다. 특히, 정책 수가 수천 개에 달하는 고차원 사례에서도 메모리 사용량이 크게 늘어나지 않아 실용성이 강조된다.

이러한 기하학적 접근은 보상 불확실성 외에도 파라미터 불확실성이 존재하는 다른 최적화 문제(예: 파라미터화된 선형 프로그램, 다목적 MDP)에도 확장 가능성을 시사한다.