확률 최적 제어를 근사 추론으로 풀다

초록

본 논문은 확률 최적 제어 문제를 베이지안 추론의 형태로 재구성하고, 정확한 이중형식의 자연스러운 완화에 기반한 새로운 반복 알고리즘을 제시한다. 이 접근법은 강화학습(RL) 영역에 적용되어 모델‑프리, 오프‑폴리시 방식의 이산·연속 제어 방법을 도출한다.

상세 요약

논문은 먼저 확률 최적 제어(stochastic optimal control, SOC)의 전통적 정의를 소개한다. 여기서 목표는 상태‑행동 궤적의 기대 비용을 최소화하는 정책 π(a|s) 를 찾는 것이며, 동적 계획법(DP)이나 Hamilton‑Jacobi‑Bellman(HJB) 방정식이 일반적인 해법이다. 저자들은 이러한 최적화 문제를 “확률적 그래프 모델”로 변환한다. 구체적으로, 시스템 동역학을 조건부 확률 p(s_{t+1}|s_t,a_t) 로, 비용 함수를 지수형태 exp(−c(s_t,a_t)) 로 표현해 “보상‑가중치”된 경로 분포 q(τ) 를 정의한다. 이때 최적 정책은 q와 목표 분포 p^*(τ) 사이의 Kullback‑Leibler(KL) 발산을 최소화하는 문제와 동등함을 보인다.

이러한 관점은 기존의 KL‑제어, 경로‑적분 제어와 수학적으로 일치하지만, 논문은 여기서 한 단계 더 나아가 정확한 이중형식(dual)인 “Free Energy” 를 도입한다. 정확한 이중형식은 최적 정책을 얻기 위한 변분 최적화 문제이며, 이는 일반적인 EM(Expectation‑Maximization) 알고리즘과 구조적으로 유사하다. 그러나 EM은 완전한 사후분포를 계산해야 하는 반면, 실제 SOC에서는 고차원 연속 상태·행동 공간 때문에 불가능하다.

따라서 저자들은 정확한 이중형식을 “자연스러운 완화(relaxation)”한다. 구체적으로, 후방 분포(posterior) 대신 파라미터화된 정책 π_θ 를 사용해 KL 발산을 근사하고, 기대값을 샘플링 기반의 Monte‑Carlo 추정으로 대체한다. 이 과정에서 두 단계가 교대로 수행된다. ① 현재 정책으로부터 궤적을 샘플링하고, 비용에 기반한 가중치를 계산해 “가중 평균”(importance weighted) 추정치를 얻는다. ② 이 추정치를 이용해 정책 파라미터를 경사 상승법으로 업데이트한다. 이 반복은 “Iterative Inference Control (IIC)”이라 명명되며, 기존의 정책 반복(policy iteration)이나 가치 반복(value iteration)과는 달리 명시적인 가치 함수 없이도 수렴한다는 이론적 보장을 제공한다.

강화학습(RL) 영역에 적용할 때, IIC는 모델‑프리이며 오프‑폴리시(off‑policy) 특성을 갖는다. 즉, 행동 데이터를 기존 정책이 아닌 임의의 행동 로그(behavior policy)에서도 활용 가능하다. 이 점은 특히 연속 제어에서 샘플 효율성을 크게 향상시킨다. 논문은 이산 제어(예: GridWorld)와 연속 제어(예: Pendulum, MuJoCo 로봇) 두 가지 실험을 통해 기존의 DDPG, SAC, PPO 등과 비교했을 때 수렴 속도와 최종 성능에서 경쟁력 있거나 우수한 결과를 보였다고 보고한다.

또한, 저자들은 IIC가 기존의 “Maximum Entropy RL” 프레임워크와도 연결됨을 증명한다. 두 접근법 모두 정책을 비용‑가중치된 엔트로피 최대화 문제로 해석한다는 점에서 본질적으로 동일한 목표 함수를 공유한다. 그러나 IIC는 변분 추론 관점에서 파생된 업데이트 규칙을 제공함으로써, 엔트로피 정규화 파라미터를 자동으로 조정하는 메커니즘을 내재한다. 이는 하이퍼파라미터 튜닝 부담을 크게 감소시킨다.

마지막으로, 논문은 이론적 한계와 향후 연구 방향을 제시한다. 현재 제안된 완화는 정책이 충분히 표현력 있는 경우에만 정확한 최적해에 근접한다는 가정이 있다. 또한, 고차원 관측(예: 이미지)에서의 확장과, 다중 목표(multi‑objective) 상황에 대한 일반화가 남아 있다. 이러한 과제들은 베이지안 딥러닝과 결합한 “Deep Variational Control” 형태로 이어질 가능성이 있다.

초록

상세 요약

📜 논문 원문 (영문)