안전한 학습 기반 비선형 MPC를 위한 순차 순환 신경망 모델링

본 논문은 비선형 모델 예측 제어(NMPC)의 실시간 계산 부담을 완화하기 위해, 예측 지평선 전체에 걸쳐 파라미터를 공유하는 순차 RNN 정책인 Sequential‑AMPC를 제안한다. 안전 검증 및 폴백 메커니즘을 결합한 Safe Sequential‑AMPC는 기존 피드포워드 기반 근사 MPC보다 적은 전문가 데이터로 높은 실행 가능성 및 폐루프 안전성을 달성한다. 특히 고차원 시스템에서 학습 효율이 크게 향상되고, 파라미터 규모가 지평선 …

저자: Mihaela-Larisa Clement, Mónika Farsang, Agnes Poks

본 논문은 비선형 모델 예측 제어(NMPC)의 실시간 적용성을 저해하는 고비용 최적화 문제를 해결하고자, 학습 기반 근사 MPC 방식을 개선한다. 기존 연구에서는 전문가가 생성한 최적 제어 시퀀스를 대량으로 수집하고, 이를 다층 퍼셉트론(MLP)으로 매핑해 온라인 최적화를 대체하는 접근법이 주류를 이루었다. 그러나 이러한 피드포워드 정책은 각 시간 단계의 제어 입력을 독립적으로 예측하므로, 시간적 연관성을 충분히 활용하지 못하고, 지평선 길이가 늘어날수록 파라미터 수가 선형적으로 증가한다는 구조적 비효율성을 가진다. 이에 저자는 순차적인 RNN 정책인 Sequential‑AMPC(Seq‑AMPC)를 제안한다. Seq‑AMPC는 동일한 RNN 셀(숨김 차원 256)을 지평선 전체에 걸쳐 재사용함으로써, 매 시점마다 현재 상태와 이전 은닉 상태를 입력받아 다음 제어 입력을 출력한다. 이 과정은 Fig. 1에 제시된 바와 같이 입력 시퀀스 ˆUₜ∈ℝ^{N×n_u}를 재귀적으로 생성한다. RNN 기반 구조는 파라미터가 지평선 길이 N에 독립적이며, 시간적 인덕티브 바이어스를 통해 시스템의 마코프 특성을 자연스럽게 반영한다. 논문은 이를 정리 1과 정리 2를 통해 이론적으로 뒷받침한다. 정리 1은 MLP와 RNN의 파라미터 스케일링을 비교해, N이 커질수록 MLP는 O(N) 파라미터를 요구하지만 RNN은 O(1)임을 증명한다. 정리 2는 RNN이 시스템 동역학과 구조적으로 일치하는 인덕티브 바이어스를 제공함으로써, 동일한 데이터 양에서도 더 효율적인 함수 근사를 가능하게 함을 주장한다. 안전성을 확보하기 위해, 저자는 기존 안전 검증 알고리즘

안전한 학습 기반 비선형 MPC를 위한 순차 순환 신경망 모델링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기