관계형 MDP를 위한 정책 반복 알고리즘

초록

관계형 마르코프 결정 과정(RMDP)에서 기존 가치 반복 기반 기법의 한계를 지적하고, 정책 가치가 정의되지 않거나 계산이 불가능한 두 가지 이상현상을 발견한다. 이를 해결하기 위해 정책 평가 단계에 정책 개선을 병합한 새로운 정책 반복 변형을 제안하고, 이 알고리즘이 최적 정책으로 수렴함을 이론적으로 증명한다.

상세 분석

본 논문은 관계형 MDP(RMDP)라는 고차원 상태·행동 공간을 갖는 모델에 대해 정책 반복(Policy Iteration, PI) 알고리즘을 체계적으로 고찰한다. 기존 연구는 주로 관계형 가치 반복(Relational Value Iteration, RVI)에 초점을 맞추었으며, 이를 위해 제한된 표현 스키마(예: 제한된 논리 변수, 고정된 템플릿)와 집합 기반 연산을 도입했다. 그러나 저자들은 이러한 제한이 두 가지 심각한 이상현상을 초래한다는 것을 발견한다. 첫째, 특정 정책에 대해 기대 보상이 무한히 발산하거나 정의되지 않아 정책 가치 함수가 존재하지 않는다. 이는 관계형 규칙이 무한히 재귀적으로 적용될 때 발생하며, 기존 RVI는 이러한 경우를 탐지하거나 처리하지 못한다. 둘째, 정책 평가 단계에서 사용되는 근사 연산이 완전한 합성(closure)을 보장하지 않아, 정책의 실제 가치가 계산 불가능한 상태에 머무른다. 이러한 문제는 특히 변수 수가 동적으로 변하거나, 객체 생성·소멸이 포함된 도메인에서 두드러진다.

이를 극복하기 위해 논문은 “정책 평가와 정책 개선을 동시에 수행하는 변형 정책 반복”(Integrated Policy Evaluation‑Improvement, IPEI) 알고리즘을 제안한다. 핵심 아이디어는 정책 평가 단계에서 현재 정책을 완전하게 평가하려고 시도하기보다, 부분적인 가치 추정과 동시에 정책을 개선함으로써 평가 과정이 무한 루프에 빠지는 것을 방지한다는 것이다. 구체적으로, 각 반복에서 (1) 현재 정책에 대한 제한된 깊이의 관계형 연산을 수행해 근사 가치 함수를 얻고, (2) 이 근사값을 이용해 행동 선택 규칙을 갱신한다. 이렇게 하면 정책 평가가 완전한 고정점을 요구하지 않으면서도, 정책 개선이 진행되므로 전체 알고리즘은 결국 최적 정책에 수렴한다.

이론적 분석에서는 IPEI가 전통적인 PI와 달리 “모노톤성(monotonicity)”과 “수축성(contraction)” 속성을 유지함을 보인다. 특히, 정책 개선 단계에서 사용되는 연산은 관계형 논리식의 부분 순서에 대해 단조 증가함을 보이며, 이는 전체 반복이 유한 단계 내에 최적 정책을 도달한다는 수렴 증명에 핵심이 된다. 또한, 저자는 이상현상이 발생하는 경우에도 IPEI가 정의된 정책 집합 내에서 최소한의 보상 하한을 유지함을 보이며, 이는 기존 방법이 완전히 실패하는 상황에서도 안정적인 동작을 보장한다는 점에서 실용적이다.

실험 부분에서는 블록 월드, 로봇 조작, 그리고 동적 객체 생성이 포함된 도메인에서 IPEI와 기존 RVI, 전통적인 PI(비관계형) 등을 비교한다. 결과는 IPEI가 정책 가치가 정의되지 않는 경우에도 정상적으로 수렴하며, 수렴 속도와 최종 정책 품질 면에서 기존 방법을 능가함을 보여준다. 특히, 객체 수가 증가함에 따라 관계형 표현의 압축 효율이 유지되는 반면, 전통적인 방법은 상태 공간 폭발로 인해 계산이 불가능해지는 현상이 관찰된다.

결론적으로, 논문은 관계형 MDP에서 정책 반복을 적용하려면 정책 평가와 개선을 분리하지 않고 통합하는 새로운 설계가 필요함을 입증한다. 이는 관계형 표현의 유연성을 유지하면서도 알고리즘적 안정성을 확보하는 중요한 진전이며, 향후 복잡한 구조적 환경에서 강화학습 및 계획 알고리즘을 설계하는 데 기초가 될 수 있다.