다중성 자동기를 이용한 POMDP 계획

초록

본 논문은 부분관측 마코프 결정 과정(POMDP)을 예측 상태 표현(PSR)과 동일한 차원의 다중성 자동기(Multiplicity Automaton)로 변환함으로써, 자동기의 순위가 작을 경우 기존 상태 수에 비례하는 복잡도 대신 순위에 비례하는 복잡도로 효율적인 계획을 수행할 수 있음을 보인다.

상세 분석

POMDP는 관측이 완전하지 않아 상태를 직접 알 수 없고, 따라서 전통적인 동적 프로그래밍 기법을 적용하면 상태·관측·행동의 조합이 기하급수적으로 늘어나 계산이 불가능해진다. 최근에는 이러한 문제를 완화하기 위해 예측 상태 표현(PSR)이 제안되었는데, PSR은 미래 관측 시퀀스의 확률을 직접 모델링함으로써 숨겨진 상태를 명시적으로 다루지 않는다. 그러나 PSR 자체가 언제 효율적인지, 그리고 기존의 POMDP 해법과 어떤 구조적 연관성을 갖는지는 아직 명확히 규명되지 않았다.

이 논문은 PSR과 POMDP 사이의 구조적 동등성을 다중성 자동기라는 수학적 프레임워크를 통해 밝힌다. 다중성 자동기는 입력 문자열(여기서는 행동·관측 시퀀스)에 대해 선형 연산을 수행해 스칼라 값을 출력하는 자동기로, 그 차원(상태 수)은 자동기의 행렬 표현의 랭크와 동일하다. 저자들은 먼저 임의의 POMDP를 동일한 차원의 다중성 자동기로 변환할 수 있음을 증명한다. 변환 과정에서 POMDP의 전이·관측·보상 함수는 자동기의 전이 행렬과 출력 벡터로 매핑되며, 이때 추가적인 상태가 필요하지 않다.

핵심적인 결과는 “다중성 자동기의 랭크 = 예측 상태 표현의 랭크”라는 동등성이다. 즉, PSR이 낮은 차원(랭크)으로 표현될 수 있는 경우, 해당 POMDP 역시 낮은 차원의 다중성 자동기로 표현될 수 있다. 이는 기존의 “상태 수에 비례하는 복잡도” 대신 “랭크에 비례하는 복잡도”로 문제를 재구성할 수 있음을 의미한다.

이 구조적 이해를 바탕으로 저자들은 새로운 계획 알고리즘을 제시한다. 알고리즘은 다중성 자동기의 행렬 연산을 이용해 가치 함수와 최적 정책을 계산하며, 시간 복잡도는 O(exp(r)) where r은 자동기의 랭크이다. 따라서 랭크가 로그 수준으로 작을 경우, 전체 POMDP의 상태 수가 매우 커도 실용적인 시간 안에 최적 정책을 찾을 수 있다. 또한, 알고리즘은 기존의 가치 반복이나 정책 반복과 달리 상태 공간을 명시적으로 탐색하지 않으며, 대신 선형 대수적 구조를 활용해 수렴성을 보장한다.

이 논문의 기여는 크게 세 가지로 정리할 수 있다. 첫째, POMDP와 다중성 자동기 사이의 정확한 변환 관계를 수학적으로 증명함으로써 두 이론 사이의 교량을 놓았다. 둘째, 자동기의 랭크가 예측 상태 표현의 차원과 동일하다는 사실을 이용해, 복잡도 분석을 기존의 “상태 수 기반”에서 “랭크 기반”으로 전환하였다. 셋째, 랭크에 의존하는 새로운 계획 알고리즘을 설계·분석함으로써, 구조적으로 단순한(랭크가 낮은) POMDP에 대해 실제로 효율적인 해결책을 제공한다. 이러한 결과는 특히 로봇 제어, 대화 시스템, 의료 진단 등 관측이 제한적인 복잡한 환경에서, 모델을 적절히 압축해 랭크를 낮출 수 있는 경우에 큰 실용적 가치를 가진다.