조건부 평균 임베딩과 불확실 MDP를 활용한 데이터 기반 안전 제어 프레임워크
초록
본 논문은 조건부 평균 임베딩(CME)을 이용해 미지의 확률적 시스템 전이 커널을 학습하고, 이를 불확실 마르코프 결정 과정(UMDP)으로 추상화한다. 추정 오차와 상태 이산화 오류를 포함한 불확실성을 명시적으로 모델링한 뒤, 강인 동적 프로그래밍을 통해 도달-회피(reach‑avoid) 사양을 만족하는 정책을 합성한다. 온도 조절 시뮬레이션을 통해 제안 방법의 실효성을 입증한다.
상세 분석
이 논문은 데이터 기반 제어 분야에서 두 가지 핵심 기술을 결합한다. 첫 번째는 조건부 평균 임베딩(CME)이라는 커널 기반 방법으로, 전이 확률분포를 재생 커널 힐베르트 공간(RKHS)으로 매핑한다. 기존 연구는 CME의 수렴성을 비대칭적으로 다루거나, 무한 샘플 가정에 머물렀지만, 저자는 유한 샘플에 대한 명시적 농도 부등식(ε‑δ 형태)을 제시하고, 그 상수까지 계산한다는 점에서 이론적 기여가 크다. 특히, CME가 벡터값 RKHS(H_K)에 속한다는 가정 하에, 학습 오차 ‖μ_u−\hat μ_u‖_{H_K} ≤ ε 를 확률 1−δ 로 보장함으로써 이후 추상화 단계에서 오류 전파를 정량화한다.
두 번째 핵심은 불확실 MDP(UMDP) 추상화이다. 상태 공간을 유한 격자로 분할하고, 각 격자 셀에 대해 CME 기반 전이 확률의 평균값을 중심점에 대한 추정값으로 사용한다. 여기서 불확실성 집합 Γ_{s,a}는 (i) 샘플링에 의한 CME 추정 오차, (ii) 격자 이산화에 따른 Lipschitz 연속성 오차, (iii) 측정 잡음 등을 포함한다. 이러한 집합을 구간 MDP와 유사하게 정의함으로써, 기존의 강인 동적 프로그래밍(RDP) 알고리즘을 그대로 적용할 수 있다. 저자는 RDP를 통해 최악의 적대자(adversary)가 선택한 전이 확률을 가정하고, 도달‑회피 사양에 대한 하한·상한 확률 p(x), q(x)를 계산한다. 결과적으로, 원래 연속 시스템에 대해 “정책 π_x는 모든 초기 상태 x₀에 대해 Pr_{π_x}^{x₀}
댓글 및 학술 토론
Loading comments...
의견 남기기