탐험적 최적 정지와 엔트로피 정규화: 특이 제어 접근법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 연속시간·연속상태 최적 정지 문제를 강화학습 관점에서 재구성한다. 정지 시점을 확률적으로 선택하는 ‘무작위 정지 시간’(singular control)으로 모델링하고, 누적 잔여 엔트로피(CRE)를 페널티로 추가해 탐험을 유도한다. 정규화된 문제는 (n+1)차원 퇴화된 특이 제어 문제로 변환되며, 동적 계획 원리를 통해 고유한 최적 탐험 전략을 도출한다. 이후 모델 기반·모델 프리 두 종류의 강화학습 알고리즘을 설계하고, 정책 개선 보장을 증명한다. 특히 모델 프리 방법은 액터‑크리틱 구조와 신경망 파라미터화를 이용해 고차원에서도 확장 가능하도록 설계되었다.

상세 분석

이 연구는 기존 최적 정지 이론과 최신 연속시간 강화학습을 연결하는 데 중점을 둔다. 먼저, 정지 시점을 확률 변수화하여 0≤ξₜ≤1인 비감소 càdlàg 과정 ξ를 도입한다. ξₜ는 시점 t 이전에 정지했을 확률을 나타내며, 이는 전통적인 ‘정지 혹은 지속’ 이진 선택을 연속적인 제어 변수로 전환한다. 그러나 이러한 무작위화만으로는 탐험을 촉진하지 못한다는 점을 인식하고, 누적 잔여 엔트로피(CRE) = ∫₀^∞ e^{-ρt}(1−ξₜ)log(1−ξₜ)dt 를 비용에 추가한다. λ>0 를 온도 파라미터라 두어 탐험(엔트로피)과 활용(보상) 사이의 트레이드오프를 조절한다.

정규화된 목적함수는
V_λ(x)=sup_{ξ} E

탐험적 최적 정지와 엔트로피 정규화: 특이 제어 접근법

초록

상세 분석

댓글 및 학술 토론

의견 남기기