상대 엔트로피 최소화로 구현하는 보편적 적응 제어와 베이시안 제어 규칙

이 논문은 환경이 미지인 상황에서 사전 정의된 전문가(에이전트) 집합 중 가장 적합한 전문가와의 상대 엔트로피를 최소화함으로써 보편적인 적응 제어기를 설계한다. 행동이 관찰과 달리 인과적 개입으로 취급되어야 함을 강조하고, 이를 만족하는 최적 해가 ‘베이시안 제어 규칙(Bayesian Control Rule)’이라는 확률적 혼합 제어기임을 증명한다. 또한 약한 가정 하에 이 규칙이 최적 전문가의 제어법으로 수렴함을 보인다.

저자: Pedro A. Ortega, Daniel A. Braun

상대 엔트로피 최소화로 구현하는 보편적 적응 제어와 베이시안 제어 규칙
**1. 서론 및 문제 정의** 논문은 환경 동역학이 완전히 알려지지 않은 상황에서, 사전에 설계된 전문가(에이전트) 집합 {Pm} 을 활용해 보편적인 적응 제어기를 만들고자 한다. 기존의 비적응 제어는 환경 모델이 정확히 주어질 때만 실현 가능하지만, 실제 로봇·자동차·우주 탐사 등에서는 환경이 불확실하거나 변동한다. 따라서 ‘전문가와 환경의 쌍 (Pm, Qm)’을 미리 준비하고, 실제 환경 Q 가 이들 중 하나라고 가정한다. **2. I/O 시스템과 인과적 상호작용 모델** 에이전트와 환경을 각각 확률적 I/O 시스템 P, Q 로 정의하고, 이들의 결합을 통해 실제 상호작용 분포 G 를 만든다. 여기서 행동 aₜ는 에이전트가 생성하는 출력이며, 관찰 oₜ는 환경이 생성하는 출력이다. 중요한 점은 행동이 ‘관찰이 아니다’라는 점으로, 행동은 외부에 대한 인과적 개입(do‑연산)으로 취급해야 한다는 것이다. 이는 베이시안 확률론에서 조건부 확률과 인과적 조건부 확률을 구분하는 이유와 동일하다. **3. 상대 엔트로피 최소화와 초기 베이시안 혼합** 전문가 Pm 과 에이전트 Pr 사이의 상대 엔트로피 D(Pm‖Pr) 를 정의하고, 전체 기대 상대 엔트로피 D = ∑ₘ P(m) ∑ₜ

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기