블랙박스 메타러닝으로 내재 보상 학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 메타러닝을 활용해 강화학습 에이전트의 내재 보상 함수를 학습한다. 정책 업데이트를 블랙박스로 취급해 2차 미분을 피하고, PPO 기반 외부 루프에서 첫 번째 차원만 이용한다. MetaWorld 연속 제어 환경에서 희소 보상만을 사용한 평가에서도 기존 외부 보상 대비 높은 성공률을 보였다.

상세 분석

이 연구는 메타강화학습(Meta‑RL)에서 가장 비용이 큰 2차 메타‑그라디언트 계산을 회피하기 위해 “블랙박스” 접근법을 제안한다. 내부 루프는 기존 PPO와 동일하게 동작하지만, 외부 루프에서 제공하는 내재 보상 rᵢₜ을 사용한다. 내재 보상 생성기는 LSTM 기반의 확률적 에이전트 πᵣ_ϕ 로 설계돼, 현재 상태 sₜ, 행동 aₜ, 현재 정책 π_θ(aₜ|sₜ), 외부 보상 rₑₜ, 이전 내재 보상 rᵢₜ₋₁, 그리고 이전 내재 보상에 대한 확률 πᵣ_ϕ(rᵢₜ₋₁|Dₜ₋₁) 등을 입력으로 받아 rᵢₜ을 샘플링한다. 이렇게 생성된 rᵢₜ은 내부 PPO 업데이트의 보상 신호로 대체되어 정책 π_θ가 학습된다.

외부 루프는 여러 메타‑태스크에 대해 π_θ 와 πᵣ_ϕ 를 동시에 실행하고, 각 태스크에서 얻은 누적 반환 G(τ) 을 메타‑목표 J(ϕ)=E_M

블랙박스 메타러닝으로 내재 보상 학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기