적응형 LQR의 레그레트 정밀 분석과 효율적 정책 설계

본 논문은 미지의 시스템 매개변수를 가진 선형-이차 제어 문제에서 적응형 정책의 레그레트를 정확히 분해하고, 약간 변형된 Certainty Equivalence(CE) 방식을 이용한 두 종류의 무작위화 정책이 √T 수준(거의 제곱근) 레그레트를 달성함을 보인다. 또한 추가적인 구조적 정보가 주어질 경우 레그레트를 로그 수준으로 낮출 수 있음을 제시하고, 파라미터 식별 정확도에 대한 수렴 속도도 분석한다.

저자: Mohamad Kazem Shirani Faradonbeh, Ambuj Tewari, George Michailidis

본 논문은 동적 매개변수가 알려지지 않은 선형‑이차(LQ) 시스템에 대해 적응형 제어 정책의 성능을 레그레트 관점에서 정량화하고, 효율적인 정책 구현 방법을 제시한다. 먼저 시스템 모델을 x(t+1)=A₀x(t)+B₀u(t)+w(t+1) 로 정의하고, 비용 함수 c_t= x(t)ᵀQx(t)+u(t)ᵀRu(t) 를 사용한다. 여기서 Q와 R은 알려져 있으나 A₀와 B₀는 미지이며, 시스템은 안정화 가능(stabilizable)이라고 가정한다. 최적 정책 π*는 Riccati 방정식(3)-(4)를 풀어 얻은 피드백 행렬 L(θ₀)를 적용하는 선형 피드백이다. 레그레트는 시간 n까지의 평균 비용 차이 R_n(π)= (1/n)∑_{t=0}^{n-1}

적응형 LQR의 레그레트 정밀 분석과 효율적 정책 설계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기