KL 다이버전스를 활용한 낙관적 강화학습: UCRL2 대비 성능 향상

본 논문은 유한 상태·행동 MDP에서 낙관적 탐색을 구현할 때 L1 거리 대신 Kullback‑Leibler(KL) 발산을 사용한 KL‑UCRL 알고리즘을 제안한다. KL‑UCRL은 기존 UCRL2와 동일한 로그‑레그레트 이론적 보장을 유지하면서, 전이 확률 추정치에 대한 연속성 및 관측과의 호환성을 확보한다. 실험 결과는 특히 연결성이 낮은 MDP에서 KL‑UCRL이 평균 레그레트를 크게 감소시킴을 보여준다.

저자: Sarah Filippi (LTCI), Olivier Cappe (LTCI), Aurelien Garivier (LTCI)

본 논문은 유한 상태·행동 공간을 갖는 마코프 결정 과정(MDP)에서 모델 기반 강화학습 알고리즘이 어떻게 낙관적 탐색(optimism in the face of uncertainty) 원리를 적용할 수 있는지를 재조명한다. 전통적인 접근법인 R‑MAX와 UCRL2는 추정된 모델 파라미터 주변에 L1‑노름(또는 총변동 거리) 기반의 신뢰구간을 정의하고, 그 구간 안에서 가장 큰 평균 보상을 주는 “낙관적 모델”을 찾아 정책을 결정한다. 그러나 L1‑볼은 두 가지 실질적인 문제를 야기한다. 첫째, 추정치가 미세하게 변해도 최적 모델이 급격히 바뀌는 비연속성을 가지고 있어 학습 과정이 불안정해진다. 둘째, 관측된 전이에 대해 확률 0을 할당하는 경우가 발생해 실제 데이터와 모순되는 모델이 생성된다. 특히 전이 그래프가 희소하거나 특정 전이가 불가능한 환경에서는 L1‑낙관이 불필요한 보너스를 지속적으로 부여해 탐색 효율을 저하시킨다. 이를 해결하기 위해 저자는 Kullback‑Leibler(KL) 발산을 거리 척도로 채택한 KL‑UCRL 알고리즘을 제안한다. KL‑볼은 확률 단순체 위에서 정보 이론적 의미를 갖는 비대칭 거리이며, 작은 추정 오차에 대해 연속적인 변화를 보장한다. 알고리즘은 에피소드 기반으로 동작하며, 각 에피소드 시작 시 현재까지의 방문 횟수 \(N_t(x,a)\)와 에피소드 내 방문 횟수 \(n_j(x,a)\)를 이용해 신뢰구간 반경 \(\epsilon = C_P / N_t(x,a)\)를 정의한다. 이후 확장 가치 반복(extended value iteration) 단계에서, 각 상태‑행동 쌍에 대해 다음 최적화 문제를 푼다. \

KL 다이버전스를 활용한 낙관적 강화학습: UCRL2 대비 성능 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기