연속시간 강화학습에서 타원성 활용한 모델프리 가치함수 근사
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 연속시간 마코프 확산 과정을 이산시간 관측·행동으로 변환한 오프‑폴리시 강화학습 문제를 다룬다. 확산의 균등 타원성을 가정하여 베일먼 연산자를 Sobolev 공간에서 양의 정부호와 유계성을 확보하고, 이를 기반으로 Sobolev‑prox fitted q‑learning 알고리즘을 제안한다. 알고리즘은 함수 클래스 내에서 최소제곱 회귀를 반복 수행하며, 근사 오차, 복잡도, 최적화 수렴, 시간 이산화 오차 네 요소로 구성된 오라클 부등식을 얻는다. 결과적으로 타원성은 모델프리 강화학습을 감독학습 수준의 난이도로 낮추는 핵심 구조적 조건임을 증명한다.
상세 분석
이 연구는 연속시간 확산 제어 문제를 η 간격의 이산시간 마코프 결정 과정(MDP)으로 전환하고, 오프‑폴리시 데이터(행동 정책 π₀에 의해 수집된 궤적)만을 이용해 최적 가치 함수와 어드밴티지 함수를 학습하는 방법을 제시한다. 핵심 가정은 확산 행렬 Λ(x)가 균등 타원성을 만족한다는 점이다. 즉, 모든 x에 대해 Λ(x)≽c·I (c>0)이며, 이는 확산이 모든 방향으로 충분히 퍼지는 것을 보장한다. 이 가정은 베일먼 연산자 Aₐ의 Sobolev 공간 H¹(ρ)에서의 양의 정부호와 유계성을 유도한다. 구체적으로, 베일먼 연산자 Bπ(f)=η·r+e^{−βη}·Pₐη
댓글 및 학술 토론
Loading comments...
의견 남기기