안전 탐색을 위한 정책 사전 활용
초록
SOOPER는 오프라인 데이터나 시뮬레이터에서 얻은 보수적인 정책을 사전으로 사용하고, 확률적 동역학 모델을 기반으로 낙관적인 탐색을 수행한다. 안전한 정책을 필요 시 비관적으로 호출해 제약을 만족시키면서, 최적 정책으로의 수렴을 누적 regret 상한으로 보장한다. 실험 결과는 기존 안전 RL 방법들을 능가함을 보여준다.
상세 분석
본 논문은 연속 상태·액션 공간을 갖는 제한된 마르코프 결정 과정(CMDP)에서 안전한 탐색을 달성하기 위한 새로운 모델 기반 알고리즘 SOOPER를 제안한다. 핵심 아이디어는 두 가지 상반된 원칙을 결합하는 것이다. 첫째, 오프라인 데이터 혹은 시뮬레이터에서 학습된 보수적인 정책(‘정책 사전’)을 비관적으로 사용해 에피소드 중 언제든지 안전 제약을 만족하도록 강제한다. 둘째, 현재 모델의 불확실성을 고려한 낙관적인 플래닝을 통해 가상 환경에서 탐색을 진행함으로써 정보 획득을 극대화한다.
이론적 기여는 크게 세 부분으로 나뉜다. (1) 안전 보장: 정의된 신뢰 집합 Fₙ 내에서 최악의 동역학을 가정한 비용 가치 함수 (\bar V^{\hat\pi}c) 를 상한으로 근사하는 (Q^{\hat\pi}{c,n}) 를 도입하고, 이를 이용해 실시간으로 누적 비용을 추적한다. 알고리즘 1은 이 추적값이 안전 예산 d 를 초과할 경우 즉시 정책 사전을 호출하도록 설계돼, 모든 에피소드에서 제약 위반 확률을 (1-\delta) 이하로 제한한다. (2) 최적성 및 regret bound: 정책 사전이 초기에는 보수적이지만, 에피소드가 진행될수록 모델 불확실성이 감소하면서 (F_n) 가 수축한다. 저자는 이를 이용해 안전 정책 집합이 점차 확대되고, 결국 진정한 최적 정책 (\pi^*c) 에 수렴함을 보인다. 특히 누적 regret (R(N)) 에 대한 상한을 (\tilde O(\sqrt{N})) 수준으로 제시해, 기존 연구가 제공하던 ‘단일 최적성 보장’보다 학습 전 과정에서의 성능을 정량화한다. (3) 실용적 구현: 베이지안 신경망 혹은 앙상블 기반의 확률적 동역학 모델을 사용해 (\mu_n)와 (\sigma_n)을 추정한다. 비용에 불확실성 패널티 (\lambda{\text{pessimism}}) 를 추가함으로써 비관적 비용값을 효율적으로 근사하고, 기존 TD‑학습 파이프라인에 쉽게 통합한다.
비교 실험에서는 RWRL 및 SafetyGym 벤치마크뿐 아니라 실제 로봇 플랫폼에서의 온라인 학습을 수행했다. SOOPER는 안전 위반 횟수가 현저히 낮으며, 수렴 속도와 최종 성능 면에서 최신 안전 RL 알고리즘(SAILR, MASE 등)을 능가한다. 특히 정책 사전이 시뮬레이션‑실제 격차를 포함한 경우에도, 비관적 호출 메커니즘이 안전을 유지하면서도 탐색 효율을 크게 떨어뜨리지 않는다.
전체적으로 이 논문은 “정책 사전 + 확률적 모델 기반 낙관적 플래닝”이라는 새로운 패러다임을 제시하고, 안전 보장과 최적성 사이의 전통적 트레이드오프를 이론적 상한과 실험적 증거를 통해 크게 완화한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기