롤아웃 샘플링을 활용한 효율적인 근사 정책 반복
초록
본 논문은 기존 롤아웃 기반 정책 반복(RCPI)의 샘플링 비용을 다중 팔 밴딧 기법으로 최적화한다. UCB와 Successive Elimination 등 밴딧 알고리즘을 적용해 상태별 롤아웃 수를 동적으로 조절함으로써, 동일한 정책 품질을 유지하면서도 학습에 필요한 시뮬레이션 횟수를 10배 가량 감소시켰다. 실험은 인버티드 펜듈럼과 마운틴카 두 벤치마크에서 수행되었다.
상세 분석
RCPI는 정책을 직접 분류기로 학습시키는 접근법으로, 각 상태‑액션 쌍에 대해 다수의 롤아웃을 수행해 Q값을 추정하고, “우세 행동”을 찾아 학습 데이터로 만든다. 그러나 모든 상태에 동일한 수의 롤아웃을 할당하면, 가치 차이가 거의 없거나 이미 명확히 구분되는 상태에서도 불필요한 계산이 발생한다. 논문은 이를 “다중 팔 밴딧” 문제에 비유한다. 각 상태를 하나의 팔로 보고, 한 번의 샘플링은 해당 상태의 모든 행동에 대해 한 번씩 롤아웃을 수행하는 최소 단위이다.
밴딧 알고리즘은 (1) Count – 가장 적게 샘플된 상태를 우선 선택, (2) UCB1/UCB2 – 현재 추정된 Q값 차이(Δ̂)와 탐색 보너스를 결합해 기대 보상이 큰 상태를 선택, (3) Successive Elimination – 일정 신뢰 수준에서 우세 행동이 확정된 상태를 즉시 제외한다. 특히 Δ̂(s)는 현재 샘플링된 Q값 중 최댓값과 두 번째 최댓값의 차이이며, 이 값이 클수록 해당 상태에서 우세 행동을 빠르게 확정할 수 있다.
알고리즘 흐름은 다음과 같다. 초기에는 무작위로 선택된 상태 집합 S_R을 유지하고, 매 반복마다 U(s) = ̂Δπ(s)+exploration term(예: 1/(1+c(s)))이 최대인 상태를 선택한다. 선택된 상태에 대해 한 번의 전체 롤아웃(모든 행동에 대해) 수행 후, Δ̂와 신뢰 구간을 업데이트한다. Δ̂가 사전에 정의한 임계값을 초과하거나, 통계적 검정(t‑test 혹은 베이즈 신뢰구간)으로 우세 행동이 확정되면 해당 상태를 학습 데이터에 추가하고 S_R에서 제거한다. 반대로 모든 행동이 거의 동등하게 보이면 해당 상태를 버리고 새로운 상태를 삽입한다.
이러한 동적 할당은 전체 롤아웃 수를 크게 절감한다. 실험에서는 기존 RCPI가 각 상태당 K=1030개의 롤아웃을 사용했지만, 밴딧 기반 방법은 평균적으로 35개만으로 충분했다. 결과적으로 정책의 평균 보상은 거의 동일했으며, 특히 인버티드 펜듈럼에서는 10배 이상의 시간 절감이 관측되었다.
이 논문의 핵심 기여는 (1) 롤아웃 샘플링을 밴딧 프레임워크에 매핑한 이론적 정립, (2) Δ̂ 기반의 탐색‑활용 균형을 구현한 실용적인 알고리즘, (3) 실험을 통해 정책 품질을 유지하면서 샘플링 비용을 크게 낮춘 입증이다. 또한, 상태 선택 분포를 γ‑discounted 정책 분포 대신 균등 무작위로 초기화함으로써 구현 복잡성을 낮추고, 향후 더 정교한 상태 분포(예: 방문 빈도 기반)와 결합할 여지를 남긴다.
한계점으로는 (a) Δ̂의 신뢰 구간 추정이 롤아웃 길이 T와 보상 변동성에 민감하므로, 매우 노이즈가 큰 환경에서는 조기 종료가 부정확할 수 있다. (b) 현재는 상태 수준만 관리하고 행동 수준의 샘플링 최적화는 미구현 상태이며, 이는 추가적인 효율 향상의 여지를 제공한다. (c) 밴딧 파라미터(탐색 보너스 계수 등)의 튜닝이 도메인에 따라 필요할 수 있다.
전반적으로, 이 연구는 강화학습에서 “샘플링 비용”이라는 핵심 병목을 밴딧 이론으로 효과적으로 완화시켰으며, 정책 반복을 위한 실용적인 도구로서 가치가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기