계층적 확률 검증을 통한 도달 가능성 학습

** 본 논문은 시나리오 최적화를 이용해 전역적인 보수적 안전 집합을 빠르게 인증하고, 온라인에서 경계 부근을 반복적인 볼록 최적화로 정밀히 확장하는 두 단계 계층 구조를 제안한다. 전역·국부 단계 모두 확률적 안전 보장을 제공하며, 학습된 도달 가능성 정책과 모델 기반 컨트롤러를 스위칭하여 드론 레이싱 실험에서 안전성과 성공률을 크게 향상시킨다. **

저자: Ebonye Smith, Sampada Deglurkar, Jingqi Li

계층적 확률 검증을 통한 도달 가능성 학습
** 본 논문은 고차원 비선형 시스템에 대한 도달 가능성 분석의 실용성을 크게 향상시키는 ‘계층적 확률 검증 프레임워크’를 제안한다. 기존 Hamilton‑Jacobi(HJ) 기반 도달 가능성 방법은 정확하지만 차원 저주로 인해 실시간 적용이 불가능하고, 최근 학습 기반 근사는 계산 효율성을 제공하지만 안전성을 보장하지 못한다는 한계가 있다. 이를 해결하기 위해 저자들은 전역적인 보수적 인증과 국부적인 정밀 확장을 결합한 두 단계 구조를 설계하였다. 첫 번째 단계, 즉 전역 검증에서는 시나리오 최적화(scenario optimization)를 활용한다. 시스템 동역학 x_{t+1}=f(x_t,u_t)와 학습된 정책 π_lp에 대해, 다수의 시나리오 쌍 (명목 상태, 작은 교란 상태)을 샘플링하고 동일한 제어 시퀀스를 적용해 두 궤적 간의 편차 Δx*_t 를 추정한다. 이 과정은 Theorem 1에 의해 위험 수준 ε와 신뢰도 1‑β 하에 확률적 보장을 제공한다. 이후 Δx*_t 를 이용해 보상 함수 r(x)와 제약 함수 c(x)의 하한을 각각 ˇr_t = r(¯x_t)−L_rΔx*_t, ˇc_t = c(¯x_t)−L_cΔx*_t 로 정의하고, 이를 기반으로 보수적인 전역 안전 집합 V_global = {x | ˇV_γ(x,T)≥0} 을 구성한다. 여기서 ˇV_γ는 (10)식에 따라 정의된 하한값 함수이며, V_global 내부의 모든 상태는 ε 이하의 실패 확률을 갖는다고 보장한다. 두 번째 단계는 전역 검증이 과도하게 보수적일 경우를 대비한 국부 확장이다. 현재 상태가 V_global 외부에 있더라도 실제로는 안전할 가능성이 존재한다는 점에 착안한다. 저자들은 경계 ∂V_global 근처에서 중심점 ˇx를 찾고, 반경 r을 점진적으로 확대하는 iterative growth 알고리즘을 제시한다. 각 반복에서 반경 r 내에서 N개의 초기 상태를 무작위로 샘플링하고, 학습 정책 π_lp 로 시뮬레이션을 수행해 도달 가능성 측정값 g_γ 를 계산한다. 만약 어느 샘플이라도 g_γ≤0(제약 위반)이라면, 가장 가까운 위반점까지 반경을 축소하고 다시 샘플링한다. 위반이 전혀 발견되지 않으면 현재 반경 r*를 최종 국부 안전 집합 V_local = B_{r*}(ˇx) 로 확정한다. 이 과정 역시 Theorem 1에 의해 ε와 β에 대한 확률적 보장을 유지한다. 제안된 검증 체계는 네 단계의 스위칭 로직으로 구현된다. (0) 목표 유지 단계에서는 현재 상태가 목표 집합 T에 있으면 빠른 MPPI(Model Predictive Path Integral) 컨트롤러를 사용해 목표를 유지한다. (1) 전역 검증 단계에서는 x∈V_global이면 학습 정책 π_lp 를 그대로 적용한다. (2) 국부 확장 단계에서는 x∈V_local이면 π_lp 로 제어하지만, 전역 검증에서 제외된 안전 영역을 활용한다. (3) 복구 단계에서는 어느 단계에도 속하지 않을 경우, 학습 정책을 워밍 스타트로 하는 MPPI를 실행해 안전하게 회복한다. 이러한 계층적 구조는 계산 비용을 최소화하면서도 필요한 순간에만 고해상도 검증을 수행하도록 설계되었다. 실험은 두 대의 드론이 복잡한 장애물과 상대 드론을 회피하며 목표 지점에 도달해야 하는 레이싱 시나리오를 사용하였다. 기존 방법(전역 검증만, 혹은 순수 학습 기반 정책만) 대비 성공률이 크게 향상되었으며, 특히 국부 확장을 통해 전역 검증에서 제외된 안전한 오버테이킹 구역을 회복함으로써 경쟁적인 레이싱 상황에서도 안전을 유지할 수 있었다. 실험 결과는 제안된 프레임워크가 고차원 시스템에서 실시간 안전 검증과 제어를 동시에 달성할 수 있음을 입증한다. 결론적으로, 이 논문은 시나리오 최적화와 반복적인 볼록 프로그램을 결합해 전역·국부 검증을 계층적으로 수행함으로써, 고차원 비선형 시스템에서 학습 기반 도달 가능성 정책의 안전성을 형식적으로 보장하고, 실제 적용 가능한 실시간 제어 전략을 제공한다. **

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기