메타강화학습으로 구현한 빠른 학습기: RL²

본 논문은 인간이나 동물이 새로운 과업을 몇 번의 시도만에 습득하는 능력과, 현재 딥 강화학습이 수천·수만 번의 시뮬레이션을 필요로 하는 현실 사이의 격차를 메타‑강화학습(meta‑RL)이라는 새로운 프레임워크로 메우고자 한다. 저자들은 “빠른” 강화학습 알고리즘을 직접 설계하는 대신, 그 알고리즘 자체를 순환 신경망(RNN)의 파라미터에 내재화하고, 이 파라미터를 “느린” 강화학습 알고리즘을 통해 학습한다는 아이디어를 제시한다. 이를 RL²(RL-squared)라 명명한다. **문제 정의와 메타‑학습 설정** - MDP들의 집합 M과 그 위의 사전 분포 ρ_M을 가정한다. 학습 단계에서는 ρ_M 로부터 MDP를 샘플링하고, 각 MDP에 대해 n개의 에피소드를 연속적으로 수행한다. 이 연속된 에피소드를 하나의 “트라이얼”이라 부른다. - 에이전트는 매 타임스텝에 (관찰 s_t, 행동 a_t, 보상 r_t, 종료 플래그 d_t)를 입력받아 임베딩 φ(s_t, a_t, r_t, d_t)를 만든 뒤, GRU 기반 RNN에 전달한다. RNN 은닉 상태 h_t는 트라이얼 전체에 걸쳐 유지되며, 이는 “빠른” 학습 알고리즘의 내부 메모리 역할을 한다. - 트라이얼이 끝나면 은닉 상태는 초기화된다. 따라서 메타‑정책은 각 트라이얼마다 새로운 MDP에 대해 처음부터 학습을 시작한다. - 목표는 한 트라이얼 동안 누적된 할인 보상의 기대값을 최대화하는 것으로, 이는 트라이얼 수준에서의 누적 pseudo‑regret 최소화와 동등하다. **학습 방법** - 메타‑정책 μ_ϕ (RNN)의 파라미터 ϕ를 최적화하기 위해 Trust Region Policy Optimization(TRPO)와 Generalized Advantage Estimation(GAE)를 사용한다. 이는 고차원 파라미터 공간에서도 안정적인 업데이트를 가능하게 한다. - 베이스라인 역시 RNN 형태로 구현해 샘플링 변동성을 감소시킨다. - 학습 과정은 완전한 모델‑프리 방식이며, 사전 분포 ρ_M 에서 MDP를 무작위로 샘플링해 다수의 트라이얼을 수행한다. **실험 1: 다중 팔 밴드** - k∈{5,10,50}개의 팔을 가진 베르누이 밴드 문제를 uniform

메타강화학습으로 구현한 빠른 학습기: RL²

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기