주기적 선형 시스템의 적응 최적 제어: 오프‑폴리시 가치 반복 접근법

본 논문은 연속시간 주기적 선형 시스템(CTLP)의 무한‑시간 최적 제어 문제를 다루며, 시스템 매개변수를 알 필요 없이 수집된 입력‑상태 데이터만으로 근사 최적 해를 얻는 새로운 오프‑폴리시 가치 반복(Value Iteration, VI) 기반 적응 동적 프로그래밍(ADP) 알고리즘을 제안한다. 기존의 시간‑불변 ADP와 달리, 주기적 리카티 방정식(PRE)의 수렴 특성을 이용해 Fourier 기반 근사와 데이터‑드리븐 미분 방정식으로 최적 …

저자: Bo Pang, Zhong-Ping Jiang

본 논문은 연속시간 선형 주기 시스템(CTLP)의 무한‑시간 선형 이차(PLQ) 최적 제어 문제를 다루며, 시스템 매개변수 \(A(t),B(t)\)를 사전에 알 필요 없이 수집된 입력‑상태 데이터만으로 근사 최적 제어기를 설계하는 새로운 오프‑폴리시 가치 반복(Value Iteration, VI) 기반 적응 동적 프로그래밍(ADP) 알고리즘을 제안한다. 1. **문제 정의 및 배경** - 시스템은 \(\dot x(t)=A(t)x(t)+B(t)u(t)\) 형태이며, \(A(t),B(t)\)는 \(T\)‑주기적인 연속 함수이다. 목표는 주기적인 피드백 이득 \(K(t)\)를 찾아 비용 \(J=\int_{t_0}^{\infty}\bigl(\|C(t)x(t)\|^2+u^T(t)R(t)u(t)\bigr)dt\) 를 최소화하는 것이다. - 기존 ADP 연구는 주로 시간‑불변 시스템에 국한돼 있었으며, 주기적 시스템에 대한 무한‑시간 최적 제어는 이론적·계산적 난관이 많았다. 특히, 주기적 리카티 방정식(PRE)의 해가 존재하고 수렴한다는 증명이 미비했다. 2. **주기적 리카티 방정식(PRE)과 새로운 수렴 증명** - PRE는 \(-\dot P(t)=A^T(t)P(t)+P(t)A(t)-P(t)B(t)R^{-1}(t)B^T(t)P(t)+C^T(t)C(t)\) 로 정의된다. - 논문은 기존 문헌(

주기적 선형 시스템의 적응 최적 제어: 오프‑폴리시 가치 반복 접근법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기