무작위 가치 함수 기반 탐색의 최악 경우 후회 한계

본 논문은 훈련 데이터에 가우시안 잡음을 주입해 생성한 무작위 가치 함수(RLSVI)를 이용해 탐색을 수행하고, 탭ular 유한-시간 마코프 결정 과정(MDP)에서 최악 경우 후회(regret) 상한을 다항식 형태로 증명한다. 제안 방법은 ε‑greedy나 Boltzmann 탐색과 달리 가치 함수 학습 단계에서 무작위성을 도입함으로써 효율적인 탐색을 보장한다.

저자: Daniel Russo

본 논문은 강화학습(RL)에서 탐색을 효율적으로 수행하기 위한 새로운 접근법인 ‘Randomized Least Squares Value Iteration(RLSVI)’을 제안하고, 탭ular 유한-시간 마코프 결정 과정(MDP)에서 최악 경우 후회(regret) 상한을 다항식 형태로 증명한다. 1. **배경 및 동기** 기존 탐색 이론은 주로 낙관적(optimistic) 알고리즘에 기반해, 상태·행동 집합이 작은 탭ular MDP에서만 효율적인 후회 보장을 제공한다. 실무에서는 ε‑greedy, Boltzmann 등 행동 선택 단계에 무작위성을 주입하는 방법이 널리 쓰이지만, 이러한 방법은 간단한 탭ular 예시에서도 지수적 학습 시간(후회)을 초래한다. 따라서 실용적인 함수 근사와 결합 가능한, 이론적 보장이 있는 탐색 메커니즘이 필요하다. 2. **문제 정의** 에피소드 길이 H, 상태 수 S, 행동 수 A인 유한-시간 MDP M=(H,S,A,P,R,s₁)를 고려한다. 에이전트는 K 에피소드를 순차적으로 수행하며, 매 시점 (sₖʰ,aₖʰ,rₖʰ,sₖʰ⁺¹)를 관측한다. 목표는 모든 MDP에 대해 최악 경우 후회 \

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기