CPT 기반 강화학습을 위한 정책 그라디언트 이론 및 알고리즘

CPT 기반 강화학습을 위한 정책 그라디언트 이론 및 알고리즘
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 누적 전망 이론(Cumulative Prospect Theory, CPT)을 강화학습(RL)의 목표 함수에 적용하고, 이를 위한 정책 그라디언트 정리를 제시한다. 정리 기반으로 순서 통계(order statistics)를 이용한 Monte‑Carlo 그라디언트 추정기를 설계하고, 샘플 복잡도와 수렴성을 이론적으로 분석한다. 실험을 통해 CPT가 유도하는 행동 양상을 확인하고, 기존 제로차(zeroth‑order) 방법보다 효율적인 1차(gradient) 접근법임을 입증한다.

상세 분석

이 논문은 행동경제학에서 제시된 누적 전망 이론(CPT)을 강화학습의 정책 최적화 문제에 통합함으로써, 전통적인 기대값 기반 목표와 위험 민감(Risk‑Sensitive) 목표를 넘어서는 새로운 의사결정 프레임워크를 제공한다. CPT는 (1) 기준점(reference point) 주변의 비대칭적 효용 변환, (2) 확률 왜곡(probability distortion) 함수를 핵심 요소로 갖는다. 이러한 두 요소는 인간의 이득‑손실 비대칭 인식과 희소 사건 과대평가·빈번 사건 과소평가를 수학적으로 모델링한다.

논문은 먼저 유한 단계 마코프 결정 과정(MDP)에서 정책 πθ가 파라미터 θ∈ℝ^d 로 매개될 때, 누적 보상 X=∑_{t=0}^{H‑1} r_t 의 CPT 가치 C(X)를 목표 함수 J(θ)=C(X) 로 정의한다. 기존의 정책 그라디언트 정리(PG theorem)는 J(θ)=E


댓글 및 학술 토론

Loading comments...

의견 남기기