확률적 모델 예측 안전 인증을 통한 강화학습 제어

본 논문은 안전이 필수적인 실제 시스템, 특히 자율주행과 같은 분야에서 강화학습(RL) 기반 제어기의 안전성을 보장하기 위한 새로운 프레임워크인 Probabilistic Model Predictive Safety Certification(PMPSC)를 제안한다. 기존의 RL은 높은 성능을 보이지만, 물리적 제약과 안전 요구사항을 실시간으로 고려하기 어렵다는 한계가 있다. 저자는 이를 해결하기 위해, 현재 시스템 상태와 학습 제어 입력을 입력받아 ‘확률적 튜브’를 실시간으로 생성하고, 이 튜브가 사전에 정의된 안전 터미널 집합 Xf 에 안전하게 연결되도록 하는 MPC 기반 안전 정책 πS 를 설계한다. 시스템 모델은 비선형 동역학 x(k+1)=fθ(x(k),u(k))+ws(k) 을 선형 근사 x(k+1)=Ax(k)+Bu(k)+wθ(x(k),u(k))+ws(k) 으로 표현하고, 파라미터 θ와 모델 오차 wθ를 베이지안 추정으로 확률 분포화한다. 데이터 D 를 이용해 모델 오차 집합 Wθ 와 잡음 분포 Qws 의 신뢰구간을 계산함으로써, ‘확률적 모델 오차 보장’(Assumption III.1)을 수립한다. 안전 인증은 두 단계로 이루어진다. 첫째, 제안된 학습 입력 uL(k) 가 현재 상태에서 확률적 튜브를 통해 Xf 에 도달할 수 있는지를 검증한다. 가능하면 uL(k) 를 그대로 적용한다. 둘째, 불가능할 경우, 확률적 MPC 최적화 문제를 풀어 최소한의 수정 입력 uS(k)와 백업 궤적을 생성한다. 이 최적화는 평균 비용 최소화와 함께 튜브 반경을 최소화하는 목적함수를 포함하고, 상태·입력 확률 제약 Pr(x∈X)≥px, Pr(u∈U)≥pu 를 만족하도록 설계된다. 핵심 이론적 기여는 ‘확률적 집합 불변성’(Probabilistic Set Invariance)을 이용해 튜브를 다각형 형태로 근사하고, 이를 통해 재귀적 실현 가능성을 보장한다는 점이다. 즉, 시간 k‑1 에 존재했던 feasible solution이 시간 k 에도 존재함을 증명함으로써, 시스템이 언제든 안전한 궤적을 유지할 수 있음을 보장한다. 베이지안 설계 절차는 사전·사후 분포를 통해 모델 불확실성을 정량화하고, 이를 튜브 파라미터에 반영한다. 학습이 진행될수록 불확실성 집합 Wθ 가 축소되어 튜브가 좁아지고, 더 많은 학습 입력이 직접 적용될 수 있게 된다. 실험에서는 2차원 자동차 모델을 사용해 기본 정책 탐색 RL 알고리즘에 PMPSC를 적용하였다. 시뮬레이션 결과, 안전 제약을 전혀 위반하지 않으면서도 학습 속도와 최종 성능이 크게 향상되었으며, 특히 가우시안 잡음과 같은 무한 지원 분포에서도 확률적 제약을 만족시킬 수 있음을 확인했다. 논문의 주요 기여는 (1) 확률적 안전 인증 프레임워크를 제시해 모든 RL 알고리즘에 적용 가능하도록 한 점, (2) 대규모 시스템에도 확장 가능한 온라인 최적화 기반 구현을 제공한 점, (3) 베이지안 추정과 확률적 집합 불변성을 결합해 모델 불확실성을 정량화하고 재귀적 실현 가능성을 보장한 점이다. 한계로는 선형 근사 모델에 의존함에 따라 강한 비선형성에 대한 적용이 제한될 수 있고, 고차원 시스템에서의 튜브 연산 비용이 증가할 가능성이 있다. 향후 연구에서는 비선형 확률 MPC, 고차원 집합 근사, 그리고 온라인 베이지안 업데이트와의 통합을 통해 이러한 한계를 극복하고, 실제 차량이나 로봇 플랫폼에 적용하는 방향을 제시한다.

확률적 모델 예측 안전 인증을 통한 강화학습 제어

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기