거울 하강 정책 최적화 로버스트 제약 마코프 결정 과정

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 로버스트 제약 마코프 결정 과정(RCMDP)에서 정책과 전이 커널을 동시에 최적화하기 위해 거울 하강(Mirror Descent) 기반 정책 최적화 알고리즘을 제안한다. 정책은 최대화자, 전이 커널은 최소화자 역할을 하는 라그랑지안 형태로 정의하고, 샘플 기반 설정에서 (\tilde O(1/T^{1/3})) 수렴률을 증명한다. 또한 전이 커널에 대한 근사 경사 하강법을 설계해 적대적 환경 생성에도 활용 가능함을 보인다. 실험을 통해 기존 PPO‑Lagrangian, RMCPMD 등 대비 견고성 및 제약 만족도가 크게 향상됨을 확인한다.

상세 분석

본 연구는 안전 강화 강화학습(Safe RL)과 로버스트 강화학습(Robust RL)의 결합인 로버스트 제약 마코프 결정 과정(RCMDP)이라는 최신 프레임워크를 대상으로 한다. 기존 CMDP와 RMDP 각각에 대해 거울 하강 기반 정책 최적화(PMD‑PD, TMA 등)가 좋은 수렴 특성을 보였음에도, 두 요소를 동시에 다루는 RCMDP에서는 이론적·실제적 난관이 존재했다. 논문은 이러한 난관을 두 가지 핵심 아이디어로 해결한다. 첫째, 라그랑지안 형태의 목표 함수를 도입해 정책 (\pi)와 전이 커널 (p)를 각각 최대화·최소화 문제로 변환한다. 여기서 정책은 소프트맥스 파라미터화, 전이 커널은 확률적 매핑으로 표현한다. 둘째, 거울 하강(Mirror Descent)와 거울 상승(Mirror Ascent)을 각각 정책 공간과 전이 커널 공간에 적용한다. 정책 업데이트는 KL‑다이버전스를 Bregman 거리로 사용해 기존 PMD‑PD와 동일한 구조를 유지하고, 전이 커널 업데이트는 최근 제안된 Transition Mirror Ascent(TMA)를 근사화한 Approximate TMA를 이용한다.

이론적 기여는 크게 네 부분으로 나뉜다. 1) 라그랑지안 레지듀를 상한하는 새로운 레마(Lemma 8, 29)를 도입해 이중 최적화 과정에서 발생하는 듀얼 변수의 서브옵티멀리티 오차를 정량화하고, 이는 평균 레지듀가 (\mathcal{O}(\epsilon)) 수준으로 사라짐을 보인다. 2) 전이 커널이 정책 업데이트 후 변함에 따라 발생하는 텔레스코핑 오류를 두 개의 레마(Lemma 24, 25)로 제어해 기존 CMDP 분석이 그대로 적용되지 않던 문제를 해결한다. 3) 샘플 기반 환경에서 TMA를 오라클이 아닌 근사값으로 수행하는 Approximate TMA 알고리즘을 설계하고, 그 샘플 복잡도를 (\tilde O(1/\epsilon^{2}))로 제시한다. 4) 연속 상태‑액션 공간에 대해 pseudo‑KL 다이버전스를 Bregman 거리로 증명함으로써 기존 PMD‑PD 기법을 연속형 RCMDP에 그대로 확장할 수 있음을 보였다.

수렴률 분석에서는 샘플 기반 설정에서 (\tilde O(1/T^{1/3}))의 레지듀 경계가 얻어지며, 이는 비로버스트 PMD‑PD와 동일한 수준이다. 비직사각형(Non‑rectangular) 불확실성 집합에 대해서는 약한 상수와 함께 동일한 차수의 수렴을 보이며, 이는 기존 연구가 제공하던 O(1/√T) 수준보다 개선된 결과다.

실험 부분에서는 세 가지 도메인(연속 제어, 로봇 팔, 차량 시뮬레이션)에서 RCMDP, RMDP, CMDP, 일반 MDP 설정을 모두 테스트했다. MDPO‑Robust‑Lagrangian, MDPO‑Robust‑Augmented‑Lagrangian 등 변형 알고리즘을 제안하고, 학습률 스케줄(고정, 기하, 재시작) 효과를 비교했다. 특히 재시작 스케줄을 적용한 MDPO‑Robust‑Augmented‑Lagrangian이 가장 높은 최악‑사례 수익과 제약 위반률 감소를 달성했다. 베이스라인인 PPO‑Lagrangian과 RMCPMD 대비 평균 15~30% 정도의 성능 향상이 보고되었다.

전체적으로 이 논문은 RCMDP라는 복합 문제에 대해 거울 하강 기반 이중 최적화 프레임워크를 성공적으로 적용하고, 이론적 수렴 보증과 실험적 검증을 동시에 제공함으로써 안전·견고 강화학습 분야에 중요한 진전을 제시한다.

거울 하강 정책 최적화 로버스트 제약 마코프 결정 과정

초록

상세 분석

댓글 및 학술 토론

의견 남기기