강인 제약 MDP에서 효율적인 정책 최적화와 반복 복잡도 보장
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 모델 불확실성을 고려한 강인 제약 마르코프 결정 과정(RCMDP)에서, 기존의 이진 탐색 기반 방법보다 연산량을 크게 줄이면서 ε 수준의 최적성 및 제약 만족을 보장하는 새로운 정책 그라디언트 알고리즘(RNPG)을 제안한다. 이 알고리즘은 제약 위반을 우선 최소화하고, 모든 제약이 만족될 경우 보상을 최적화하도록 설계되었으며, 엄격한 안전성 가정 하에 O(ε⁻²) 반복 복잡도를 달성한다. 실험 결과는 특히 할인 계수 γ가 클 때 4~6배 이상의 시간 절감 효과를 확인한다.
상세 분석
이 논문은 로봇 제어, 자율주행 등 안전이 중요한 실세계 시스템에 적용 가능한 강화학습 프레임워크를 제시한다. 기존의 제약 MDP(CMDP)에서는 상태 점유 측정이 볼록하기 때문에 라그랑주 이중성(strong duality)이 성립하고, 프라임-듀얼 혹은 LP 기반 방법으로 효율적인 해를 구할 수 있었다. 그러나 강인 제약 MDP(RCMDP)에서는 최악의 전이 모델이 정책에 의존하므로 점유 측정이 비볼록해지고, 라그랑주 이중성이 깨진다. 따라서 기존 프라임-듀얼 접근법은 이론적·실제적 한계가 있다.
저자들은 이러한 난관을 극복하기 위해 목표 함수를
\
댓글 및 학술 토론
Loading comments...
의견 남기기