선형 함수 근사 강화학습에서 최소갭 의존 최적 레지듬 한계

**1. 연구 배경 및 동기** 강화학습(RL)에서 대규모 상태·행동 공간을 다루기 위해 함수 근사, 특히 선형 함수 근사가 널리 사용된다. 기존 연구는 두 축으로 나뉜다. (i) 모델‑프리·모델‑베이스 접근을 통해 선형 MDP 혹은 선형 혼합 MDP에 대해 \(\tilde O(d\sqrt{H^{3}K})\) 수준의 거의 최소‑최대(minimax) 레지듬을 달성한 LSVI‑UCB++·UCRL‑VTR+ 같은 알고리즘이 존재한다. (ii) 최소 갭 \(\Delta_{\min}>0\)이 존재할 경우, 레지듬이 \(\tilde O(d^{3}H^{5}/\Delta_{\min})\) 혹은 \(\tilde O(d^{2}H^{5}/\Delta_{\min})\) 로 감소한다는 갭‑의존 분석이 제시되었다. 그러나 두 번째 결과는 첫 번째 알고리즘에 적용되지 못하고, 차원·시간 의존도가 과도하게 커서 실제 고차원·장기 문제에 부적합했다. **2. 주요 질문** “거의 최소‑최대 레지듬을 갖는 알고리즘(LSVI‑UCB++)에 대해, 최소 갭이 존재할 때 더 나은 갭‑의존 레지듬을 얻을 수 있는가?”가 논문의 핵심이다. **3. 기여 1 – 갭‑의존 레지듬 상한** 저자들은 LSVI‑UCB++에 대해 새로운 분석을 수행한다. 핵심 아이디어는 두 종류의 불확실성 추정(보너스와 분산)을 각각 재귀 구조로 묶어, 누적 효과를 엄격히 제어하는 것이다. - *보너스 항*: 기존 분석에서는 보너스 행렬의 역행렬을 직접 다루어 차원 의존도가 \(d^{3}\) 수준으로 폭발했다. Lemma 5.3에서는 “대리 행렬” \(\tilde \Sigma_{h}^{k}\)을 정의하고, \(\tilde \Sigma_{h}^{k+1} = \tilde \Sigma_{h}^{k} + \phi(s,a)\phi(s,a)^{\top}\) 형태의 단순 업데이트를 보인다. 이를 통해 보너스 누적을 \(\mathcal O(dH)\) 로 제한한다. - *분산 추정*: 가치 함수 추정 오차 \(\epsilon_{h}^{k}\)는 \(\epsilon_{h}^{k} \le \beta_{h}^{k}\|\phi(s,a)\|_{\tilde \Sigma_{h}^{k,-1}}\) 로 표현된다. Lemma 5.4와 부록 C는 \(\sum_{k}\beta_{h}^{k}\|\phi\|_{\tilde \Sigma^{-1}}\) 를 단계별 재귀식으로 풀어, 전체 합이 \(\tilde O(dH^{4})\) 이하임을 보인다. 결과적으로, 최소 갭 \(\Delta_{\min}\)가 존재하면 레지듬은 \

선형 함수 근사 강화학습에서 최소갭 의존 최적 레지듬 한계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기