알 수 없는 환경에서 안전 제어를 위한 컨포멀 도달 가능성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 시스템 동역학이 알려지지 않았거나 확률적일 때, 컨포멀 예측을 이용해 불확실성 구간을 정량화하고, 이를 기반으로 유한 단계 도달 가능성 분석을 수행하여 확률적 안전 보장을 제공한다. 제안된 프레임워크는 안전 제약을 만족하면서도 보상을 최대화하는 정책을 학습하도록 설계되었으며, 카트폴, 차선 유지, 드론 제어, 안전 내비게이션 등 7개의 실험 환경에서 기존 방법보다 강력한 안전 보장과 높은 평균 보상을 동시에 달성한다.

상세 분석

이 연구는 기존 안전 강화 강화학습이 “동역학이 알려져 있거나 결정적”이라는 가정에 크게 의존한다는 한계를 극복하고자 한다. 핵심 아이디어는 두 단계로 구성된다. 첫째, 학습된 신경망 기반 동역학 모델 ˆfβ에 대해 스플릿 컨포멀 예측(split conformal prediction)을 적용해 각 타임스텝마다 유효한 불확실성 구간 C(x)=

알 수 없는 환경에서 안전 제어를 위한 컨포멀 도달 가능성

초록

상세 분석

댓글 및 학술 토론

의견 남기기