위험민감 지수형 액터‑크리틱 알고리즘
초록
본 논문은 엔트로픽 위험 측정(Entropic Risk Measure)을 최적화하는 모델‑프리 강화학습 방법을 제안한다. 위험‑민감 정책 그라디언트의 온‑오프 정책 정리를 이론적으로 증명하고, 지수형 가치 함수를 로그 도메인에서 파라미터화함으로써 수치적 불안정을 해소한다. 제안된 rsEAC 알고리즘은 연속 제어 환경인 MuJoCo의 위험 변형 과제에서 기존 방법보다 안정적인 학습과 위험‑회피 행동을 달성한다.
상세 분석
이 논문은 위험‑민감 강화학습(Risk‑Sensitive RL) 분야에서 가장 널리 쓰이는 엔트로픽 위험 측정(Entropic Risk Measure)을 정책 그라디언트 기반으로 직접 최적화하는 새로운 이론적·실용적 프레임워크를 제시한다. 먼저 저자들은 기존의 위험‑민감 정책 그라디언트가 전체 궤적에 대한 지수화된 보상(β‑exponential return)으로 인해 분산이 크게 증가하고 수치적으로 불안정하다는 문제점을 명확히 짚어낸다. 이를 해결하기 위해 두 가지 핵심 기여를 한다.
첫째, 온‑정책과 오프‑정책 모두에 대해 확률적 정책과 결정적 정책에 대한 위험‑민감 정책 그라디언트 정리를 엄밀히 증명한다. 특히, 위험‑민감 확률적 그라디언트(Theorem 1)는 “지수 트위스트된(state‑action) 분포” ρ*_π(s)와 π*_θ(a|s)를 사용해 ∇θJ_β(π_θ)= (1/β)∫ρ*_π(s)∫∇θπ_θ(a|s)·e^{β(Q_β(s,a)−V_β(s))}da ds 형태로 표현한다. 이는 기존 위험‑중립 그라디언트와 구조는 유사하지만, 지수 가중치가 포함돼 수치적 폭발 위험이 있다. 반면, 결정적 정책 그라디언트(Theorem 2)는 지수 트위스트가 필요 없으며, ∇θJ_β(µ_θ)=∫ρ*_µ(s)∇θµ_θ(s)·∇aQ_β(s,a)|{a=µ_θ(s)} ds 로, 로그‑도메인에서의 미분만 남겨 계산 효율성과 안정성을 크게 향상시킨다.
둘째, 오프‑정책 상황에서의 근사 그라디언트(g(µ_θ), Theorem 3)를 제시하고, 탭ular 정책에 대해 정책 개선을 보장한다. 이는 행동 정책 b와 목표 정책 µ 사이의 상태 분포 차이를 보정하는 Importance Sampling 없이도, ∇θµ_θ(s)·∇_aQ_β(s,a) 형태의 업데이트가 정책 가치를 비감소시킴을 증명한다.
이론적 기반 위에 저자들은 실용적인 액터‑크리틱 알고리즘 rsEAC를 설계한다. 핵심 아이디어는 지수 가치 함수를 직접 학습하지 않고, Z_ψ(s,a)=e^{Q_ψ(s,a)} 형태로 로그‑도메인 파라미터화를 하는 것이다. 이렇게 하면 손실 J_Q(ψ)=E
댓글 및 학술 토론
Loading comments...
의견 남기기