제어 불완전성 하에서 최적 보정 피드백 전략

제어 불완전성 하에서 최적 보정 피드백 전략
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 두 플레이어가 참여하는 유한 horizon 선형 이차(LQ) 비영 제로합 게임에서 한 플레이어의 실행 오차가 시스템 궤적과 상대방 비용에 미치는 영향을 정량적으로 분석하고, 측정 가능한 오차 동역학을 이용한 보상 피드백을 설계한다. 제안된 보상법은 인과적 선형 정책 클래스 내에서 최적임을 증명하고, 작은 오차에 대해 기존 Nash 기반 피드백보다 2차 정확도까지 성능 향상을 보인다. 수치 예시를 통해 실효성을 확인한다.

상세 분석

이 연구는 이산시간 선형 시스템 (x_{k+1}=Ax_k+B_1u_{1,k}+B_2u_{2,k}) 위에 두 플레이어가 각각 비용 (J_i=\sum_{k=0}^{N-1}(x_k^\top Q_i x_k+u_{i,k}^\top R_i u_{i,k})+x_N^\top Q_{i,N}x_N) 을 최소화하는 비영 제로합 게임을 고려한다. 기존 Nash 균형 해는 피드백 형태 (u_{i,k}^\star=-K_{i,k}^\star x_k) 로 구해지며, 뒤로 진행되는 Riccati 연쇄를 통해 고유한 (K_{i,k}^\star) 가 얻어진다.

논문은 실제 구현에서 발생할 수 있는 (u_{2,k}=u_{2,k}^\star+\Delta u_{2,k}) 와 같은 작은 제어 편차가 시스템 상태에 미치는 영향을 정확히 전파한다. 상태 변동 (\Delta x_k) 는 전이 행렬 (\Phi(k,j)=A_{cl,k-1}\cdots A_{cl,j}) 를 이용해 (\Delta x_k=\sum_{j=0}^{k-1}\Phi(k,j+1)B_2\Delta u_{2,j}) 로 표현되고, 1차 비용 변동 (\Delta J_1) 은 (\Delta J_1=2\sum_{j=0}^{N-1}x_0^\top\Lambda_j B_2\Delta u_{2,j}+O(|\Delta u_2|^2)) 형태로 도출된다. 여기서 (\Lambda_j) 는 (S_k=Q_1+K_{1,k}^{\star\top}R_1K_{1,k}^\star) 와 전이 행렬을 결합한 가중치 행렬이며, 오차가 클 경우 2차 항이 지배한다는 점을 명시한다.

이러한 민감도 분석을 바탕으로, 저자는 플레이어 1이 (w_k=B_2\Delta u_{2,k}) 를 직접 관측하거나 추정할 수 있다고 가정하고, (w_k) 의 동역학을 (w_{k+1}= \alpha w_k + B_2(K_{2,k+1}^\star x_{k+1}-K_{2,k}^\star x_k)) (첫 번째 차수 지연 모델)로 모델링한다. 여기서 (\alpha\in(0,1)) 은 액추에이터의 시간 상수에 대응하는 감쇠 계수이다.

확장된 상태 (z_k=


댓글 및 학술 토론

Loading comments...

의견 남기기