마코프 제어 문제의 효율적 추론

초록

본 논문은 유한 및 무한 수평선 마코프 의사결정 과정(MDP)에서 정책 업데이트에 필수적인 보상 가중 궤적 분포의 정확한 주변 추론을 위한 새로운 알고리즘을 제시한다. 기존의 전방‑후방(FB) 재귀에 비해 시간·공간 복잡도가 크게 감소하며, 무한 수평선에 대한 확장도 자연스럽게 제공한다. 이를 통해 정책 경사와 기대 최대화(EM) 두 가지 대표적 비탐욕적 정책 학습 방법을 효율적으로 구현할 수 있다.

상세 분석

이 논문은 마코프 제어 문제, 특히 정책 경사와 기대 최대화(Expectation‑Maximisation, EM) 알고리즘이 요구하는 “보상 가중 궤적 분포”(reward‑weighted trajectory distribution)의 정확한 주변 확률을 계산하는 새로운 방법을 제시한다. 전통적인 접근법은 전방‑후방(FB) 알고리즘을 사용해 시간 단계마다 전방 메시지와 후방 메시지를 교차시켜 마진을 구한다. 그러나 FB는 O(H²)·O(|S|·|A|)의 복잡도를 가지며, 특히 긴 수평선이나 무한 수평선에서는 비효율적이다.

저자들은 “역동적 메시 전달”(dynamic message passing)이라는 개념을 도입한다. 핵심 아이디어는 보상 가중 분포가 시간에 따라 선형적으로 변한다는 점을 이용해, 각 시점의 후방 메시지를 한 번만 계산하고 이를 재귀적으로 전파함으로써 전체 마진을 O(H·|S|·|A|) 시간에 얻는 것이다. 구체적으로, 후방 메시지는 다음과 같이 정의된다.
( \beta_t(s_t,a_t) = \sum_{s_{t+1},a_{t+1}} P(s_{t+1}|s_t,a_t)\pi(a_{t+1}|s_{t+1})R(s_{t+1},a_{t+1})\beta_{t+1}(s_{t+1},a_{t+1}) )
여기서 (R)는 즉시 보상이며, (\pi)는 현재 정책이다. 이 식은 기존 FB의 후방 단계와 동일하지만, 저자는 이를 “보상 가중” 형태로 재구성해 한 번의 전파로 전체 궤적의 가중치를 포함하도록 만든다. 전방 메시지는 단순히 정책과 전이 확률을 곱해 계산되며, 두 메시지를 결합해 각 (s,a) 쌍에 대한 마진을 얻는다.

무한 수평선에 대한 확장은 특히 흥미롭다. 기존 방법은 무한히 긴 FB를 근사하기 위해 트렁크‑테일 기법이나 할인 계수를 도입한다. 반면, 이 논문은 “고정점 메시”(fixed‑point message) 개념을 도입해, 후방 메시가 수렴하는 고정점을 직접 계산한다. 즉, (\beta = \mathcal{T}(\beta)) 형태의 연산자를 정의하고, 이를 반복 적용해 수렴하면 무한 수평선에 대한 정확한 후방 메시를 얻는다. 이 과정은 선형 연산이므로, 수렴 속도는 전이 행렬의 스펙트럼 반경에 의해 결정된다.

알고리즘의 효율성은 두 가지 측면에서 검증된다. 첫째, 시간 복잡도는 유한 수평선에서 O(H·|S|·|A|)로, 기존 FB의 O(H²·|S|·|A|)보다 크게 개선된다. 둘째, 메모리 요구량도 O(|S|·|A|)로 감소한다. 실험에서는 정책 경사와 EM을 적용한 로봇 팔 제어, 재무 포트폴리오 최적화, 그리고 그리드 월드 탐색 문제에서 기존 방법 대비 3~10배 빠른 수렴을 보였다.

이 논문의 주요 공헌은 다음과 같다. ① 보상 가중 궤적 분포의 정확한 마진을 O(H) 시간에 계산하는 새로운 전방‑후방 대체 알고리즘 제시. ② 무한 수평선 MDP에 대해 고정점 메시 접근법을 도입해, 무한히 긴 궤적에 대한 정확한 추론을 가능하게 함. ③ 두 대표적 비탐욕적 정책 학습 방법(정책 경사, EM)에 대한 구현 방안을 구체적으로 제시하고, 실험을 통해 실용성을 입증. 이러한 결과는 강화학습·제어 이론 분야에서 정책 업데이트 비용을 크게 낮추어, 복잡한 연속·고차원 문제에 대한 적용 가능성을 확대한다.