온라인 볼록 최적화 기반 강인 제어와 제약 동적 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 시간에 따라 변하고 사전에 알 수 없는 비용 함수, 상태·입력 제약, 외란 및 측정 잡음이 존재하는 선형 시불변 시스템을 대상으로, 온라인 볼록 최적화(OCO)와 강인 모델 예측 제어(MPC)의 결합 기법을 제안한다. 제안 알고리즘은 제약을 보강한 RPI 집합을 이용해 강인한 제약 만족을 보장하고, 동적 레짐(dynamic regret)이 비용 함수 변동량과 외란 크기에 선형적으로 제한됨을 증명한다. 자율주행 차량 추적 제어 사례를 통해 이론적 결과와 구현 세부사항을 검증한다.

상세 분석

이 연구는 기존 OCO 기반 제어가 갖는 “저계산 복잡도·제약 처리” 장점을 유지하면서, 실제 시스템에서 필수적인 강인성(robustness)을 확보한다는 점에서 의미가 크다. 먼저 시스템 모델은 선형 시불변(LTI)이며, 상태와 입력에 각각 다각형 형태의 제약 집합 X, U가 정의된다. 외란 wₜ와 측정 잡음 vₜ는 각각 유계·볼록 집합 W, V에 포함된다고 가정하고, 이 두 집합을 합친 W̃를 통해 전체 불확실성을 하나의 집합으로 통합한다. 강인 제약 만족을 위해, 안정화 피드백 K를 선택해 A_K = A + BK가 Schur 안정성을 갖게 만든 뒤, A_K에 대한 최소 강인 양의 불변 집합(RPI) P*를 계산한다. 제약 보강은 X⊖P와 U⊖KP 형태로 수행되어, 실제 상태가 P만큼 확장된 영역 안에 있더라도 원래 제약을 위반하지 않도록 설계된다.

알고리즘은 μ‑step 예측을 기반으로 한다. 현재 측정값 ˜xₜ를 이용해 A_K^μ·˜xₜ와 과거 μ‑step 입력 시퀀스의 선형 조합으로 미래 상태 ˆx_{μ,t}를 예측하고, 이를 바탕으로 온라인 그라디언트 디센트(OGD) 업데이트를 수행한다. 비용 함수 Lₜ는 Z에 대해 Lipschitz 연속이며, 변환된 비용 L_{K,t}는 α_K‑강한 볼록성과 l_K‑Lipschitz 그라디언트를 만족한다는 가정 하에, OGD 단계에서 투사 연산 Π_{\bar S}와 그라디언트 보정 Kᵀ∇Lₜ가 적용된다. 이후, 예측된 상태와 목표 최적 정지점(θₜ, ηₜ) 사이의 차이를 보정하기 위해 gₜ를 구하고, βₜ∈

온라인 볼록 최적화 기반 강인 제어와 제약 동적 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기