동적 정보를 활용한 보상 형태 변환으로 역강화학습 강화

동적 정보를 활용한 보상 형태 변환으로 역강화학습 강화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 확률적 환경에서 기존 AIRL이 보이는 성능 저하 문제를 해결하기 위해 전이 모델을 이용한 보상 형태 변환(Reward Shaping) 기법을 제안한다. 최대 인과 엔트로피(MCE) 기반의 f‑policy IRL 프레임워크에 전이 모델 추정을 통합함으로써, 보상 함수에 동적 정보를 직접 인코딩한다. 이론적으로 최적 정책의 불변성을 보장하고, 전이 모델 학습 오차에 대한 보상 오차 및 성능 차이 경계값을 제시한다. MuJoCo와 Atari 실험에서 확률적 환경에서의 샘플 효율성과 성능이 크게 향상된 것을 확인하였다.

상세 분석

이 연구는 기존 AIRL이 확률적 마코프 결정 과정(MDP)에서 가정하는 최대 엔트로피 보상이 실제 전이 확률을 반영하지 못한다는 근본적인 한계를 정확히 짚어낸다. 저자는 최대 인과 엔트로피(MCE) 프레임워크를 기반으로, 보상 함수 R(s,a) 에 전이 모델 T̂ 를 결합한 형태 ˆR(s,a,T̂)=R(s,a)+γ·E_T̂


댓글 및 학술 토론

Loading comments...

의견 남기기