미래 상태‑행동 방문 분포를 이용한 최대 엔트로피 탐색
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 미래 시점에서 방문될 상태‑행동 특징의 할인된 분포 엔트로피를 내재 보상으로 사용한다. 이 보상의 기대 합은 초기 상태에서 시작한 전체 방문 분포 엔트로피의 하한을 제공하며, 해당 분포는 수축 연산자의 고정점이므로 오프‑폴리시로 추정 가능하다. 실험 결과는 개별 궤적 내 특징 방문을 강화하면서 전체 궤적 평균 방문은 약간 감소하고, 탐색 전용 에이전트의 수렴 속도가 개선됨을 보여준다.
상세 분석
이 연구는 기존 최대 엔트로피 강화학습(MaxEntRL)이 정책의 행동 확률에만 엔트로피 보상을 부여해 상태 공간 탐색을 충분히 촉진하지 못한다는 한계를 지적한다. 이를 해결하기 위해 저자들은 “미래 상태‑행동 방문 측도”(discounted state‑action visitation measure)를 정의하고, 이 측도의 엔트로피를 내재 보상으로 사용한다. 구체적으로, 현재 (s,a)에서 시작해 앞으로 무한히 진행되는 궤적에서 방문될 (s̄,ā) 쌍의 확률 분포 dπ,γ( s̄,ā | s,a )를 구하고, 이를 특징 변환 h를 통해 특징 공간 Z로 매핑한다. 내재 보상 R_int(s,a)=−KL
댓글 및 학술 토론
Loading comments...
의견 남기기