미리보는 잡음이 있는 확률적 LQR 설계와 최적성 원리

미리보는 잡음이 있는 확률적 LQR 설계와 최적성 원리
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 유한 단계의 잡음 미리보기 정보를 활용한 이산시간 확률적 LQR 문제를 다루며, 유한·무한 수평선에서의 최적 제어 해를 원리 최적성(Principle of Optimality)을 기반으로 직접 유도한다. 전통적인 상태 확대 방식 없이 원래 차원의 시스템에 대한 해를 제시하고, 미리보기 길이 p가 무한대로 갈 때 비인과적 최적 제어와 수렴함을 증명한다.

상세 분석

이 논문은 먼저 잡음 wₜ가 i.i.d.이며 평균 0, 공분산 I인 확률적 환경에서, 제어기가 현재 상태 xₜ와 앞으로 p 단계까지의 잡음 샘플 wₜ,…,wₜ₊ₚ을 관측할 수 있다는 전제하에 문제를 설정한다. 정보 구조 iₜ는 중첩(nested)되어 있어 i₀⊆i₁⊆…⊆i_T₋₁을 만족한다는 점이 증명에 핵심적인 역할을 한다. 기존 연구에서는 이러한 미리보기 정보를 다루기 위해 시스템을 연쇄 지연(augmented) 형태로 확장하고, 그 확장된 시스템에 표준 LQR/LQG 해법을 적용했다. 그러나 저자들은 상태 확대 없이도 원래 차원의 동적 방정식에 직접 동적 프로그래밍을 적용할 수 있음을 보인다.

핵심 이론은 ‘최적성 원리(Principle of Optimality)’의 새로운 증명이다. 이 증명은 마코프성이나 특정 비용 형태에 의존하지 않고, 오직 정보의 중첩성만을 가정한다. 이를 통해 가치 함수 Vₜ(iₜ)를 뒤로 진행(backward) 방식으로 재귀 정의하고, 각 단계에서 결정적 정책 uₜ = kₜ(iₜ)가 최적임을 보인다.

유한 수평선(FH) 문제에서는 시간 가변 행렬 Aₜ, Bₜ, 비용 행렬 Qₜ, Rₜ에 대해 뒤로 진행하는 Riccati 방정식 Pₜ를 정의한다. Lemma 1은 Pₜ≽0 및 Hₜ=Rₜ+Bᵀ_uₜPₜ₊₁B_uₜ가 양정(positive definite)임을 귀납적으로 증명한다. Theorem 2는 이 Riccati 해와 kₜ(iₜ)=−Hₜ⁻¹Bᵀ_uₜPₜ₊₁Aₜ xₜ − Hₜ⁻¹Bᵀ_uₜPₜ₊₁ wₜ₊ₚ 형태의 선형 피드백을 제시한다. 여기서 wₜ₊ₚ는 미리보기 잡음이며, 정책은 현재 상태와 미리보기 잡음에 대한 선형 결합으로 구성된다.

무한 수평선(IH) 문제에서는 시스템이 시간 불변이며 (A,B) 가 안정화 가능하고 (A,Q) 가 검출 가능(detec‑table)이라는 가정 하에, 고정된 Riccati 방정식 P = Q + AᵀPA − AᵀPB(R+BᵀPB)⁻¹BᵀPA 를 푼다. 이때 얻어지는 고정점 P와 K = −(R+BᵀPB)⁻¹BᵀPA 가 최적 정책이며, 미리보기 길이 p가 유한할 경우에도 동일한 형태의 정책이 적용된다. 중요한 점은 p가 커질수록 정책이 비인과적 최적 제어(전 미래 잡음을 완전히 알 때의 최적 제어)와 점점 가까워진다는 수렴 결과이다. Theorem 11.2.1(문헌


댓글 및 학술 토론

Loading comments...

의견 남기기