상대 엔트로피 최소화 기반 무할인 MDP 제어기
초록
본 논문은 베이지안 제어 규칙(Bayesian Control Rule)을 이용해, 상태·행동이 유한하고 전이 확률이 미지인 무할인 마코프 결정 과정(MDP)에서 최적 정책을 근사하는 BCR‑MDP 알고리즘을 제안한다. 상대 엔트로피를 최소화하는 관점에서 적응 제어를 재정의하고, 정책 공간 전체를 포괄하는 비모수적 공액 사전(conjugate prior)을 도입해 전체 경험을 요약한다. Gibbs 샘플러를 통해 사후 분포에서 정책을 추출함으로써 탐험‑활용 균형을 자동으로 조절하고, 기존 방법이 흔히 빠지는 비최적 주기(limit cycle)를 회피한다는 실험 결과를 제시한다.
상세 분석
이 연구는 적응 제어 문제를 “진짜 플랜트 동역학을 무시하는 제어기와 정보를 가진 제어기 사이의 상대 엔트로피를 최소화한다”는 새로운 최적화 목표로 전환한다. 상대 엔트로피(또는 Kullback‑Leibler divergence)는 두 확률분포 간 차이를 정량화하는데, 여기서는 사전 지식이 반영된 베이지안 제어기가 목표 분포가 된다. 베이지안 제어 규칙(BCR)은 이러한 최소 엔트로피 원칙을 만족하도록, 관측된 상태·행동·보상 삼중항을 이용해 사후 정책 분포를 업데이트한다.
논문은 특히 무할인 MDP에 초점을 맞추며, 할인 인자를 없앰으로써 장기 평균 보상을 직접 최적화한다. 상태와 행동이 유한하므로 정책은 각 상태에 대한 행동 확률 벡터로 표현될 수 있다. 저자들은 정책 자체를 확률 변수로 보고, 정책에 대한 비모수적 공액 사전(Dirichlet‑like 구조)을 정의한다. 이 사전은 “전체 히스토리”—즉, 지금까지 관찰된 모든 전이와 보상—를 충분통계량(sufficient statistics)으로 압축한다.
사후 업데이트는 베이즈 정리와 동일하게, 새로운 트랜지션 (s, a, s′, r) 이 관측될 때마다 해당 상태‑행동 쌍에 대한 카운트를 증가시키고, 사전 파라미터와 합산한다. 이렇게 하면 사후 분포는 여전히 같은 형태를 유지하므로, 샘플링이 용이해진다. 저자들은 Gibbs 샘플러를 설계해 사후 정책 분포에서 순차적으로 각 상태의 행동 확률을 조건부로 샘플링한다. 이 과정은 마코프 체인 몬테 카를로(MCMC) 방법의 일종으로, 수렴 후에는 정책이 평균적으로 최소 상대 엔트로피를 만족하는 베이즈 최적 정책에 가까워진다.
탐험‑활용 트레이드오프는 사후 분포의 불확실성에 의해 자연스럽게 조절된다. 초기에는 사전이 넓게 퍼져 있어 다양한 행동이 샘플링되지만, 경험이 쌓일수록 사후가 수렴하면서 최적 행동에 집중한다. 이 메커니즘은 전통적인 ε‑greedy 혹은 UCB와 달리 하이퍼파라미터 튜닝이 필요 없으며, 특히 무할인 설정에서 발생하기 쉬운 “비최적 주기”에 빠지는 현상을 방지한다. 실험에서는 GridWorld와 Random MDP 등에서 BCR‑MDP가 기존 Q‑learning, SARSA, 그리고 베이즈 RL 기반 방법보다 빠르게 수렴하고, 주기적 행동을 보이지 않음이 확인되었다.
이 논문의 핵심 기여는 (1) 상대 엔트로피 최소화라는 원칙을 적응 제어에 적용한 이론적 프레임워크, (2) 정책 공간 전체를 포괄하는 비모수적 공액 사전 설계, (3) Gibbs 샘플러 기반 실용적인 알고리즘 구현, (4) 무할인 MDP에서 탐험‑활용 균형을 자동으로 달성함으로써 기존 방법의 한계를 극복한 실증적 증거이다. 다만, 현재는 유한 상태·행동 공간에 국한되며, 연속형 혹은 대규모 문제에 대한 확장과 샘플링 효율성 개선이 향후 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기