위험 민감 강화학습 기대값 단기손실 확정등가위험 최적화

위험 민감 강화학습 기대값 단기손실 확정등가위험 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기대값 외에 기대 초과 손실을 측정하는 세 가지 위험 측도(익스펙타일, 유틸리티 기반 단기손실(UBSR), 최적 확정등가위험(OCE))에 대해 정책 그라디언트 기반 강화학습 알고리즘을 설계한다. 각 위험 측도에 대해 유한 단계 마르코프 결정 과정(MDP)에서 정책 그라디언트 정리를 도출하고, 샘플 경로를 이용한 그라디언트 추정기의 평균제곱오차가 O(1/m)임을 증명한다. 또한 목표 함수의 매끄러움을 확보해 비대칭 수렴률을 얻고, MuJoCo Reacher 환경에서 실험적으로 기존 REINFORCE보다 우수함을 확인한다.

상세 분석

이 논문은 위험 민감 강화학습(Risk‑Sensitive RL) 분야에서 세 가지 대표적인 볼록 위험 측도—익스펙타일(expectile), 유틸리티 기반 단기손실(UBSR), 최적 확정등가위험(OCE)—에 대한 통합 이론과 알고리즘을 제공한다. 먼저, 유한 시간 수평을 갖는 MDP를 정의하고, 정책 파라미터 θ에 대한 확률분포 pθ를 명시한다. 위험 측도 ρθ


댓글 및 학술 토론

Loading comments...

의견 남기기