시간 일관적 할인과 합리적 정책

이 논문은 불멸에 가까운 에이전트가 시간에 따라 할인 함수가 변할 수 있는 일반화된 모델에서 시간 일관성을 분석합니다. 일반적으로 사용되는 일부 할인 함수는 시간 비일관적 행동을 유발하여 계획을 수시로 변경하게 만들고, 이는 매우 나쁜 결과로 이어질 수 있습니다. 저자들은 시간 (비)일관적 할인 함수에 대한 간단한 특징을 제시하고, 에이전트가 자신의 할인 함수가 시간 비일관적임을 알 때에도 합리적인 정책이 존재함을 보입니다.

저자: Tor Lattimore, Marcus Hutter

본 논문은 강화학습 및 순차적 의사결정 이론에서 핵심 개념인 '할인'의 시간 일관성 문제를 체계적으로 분석합니다. 표준 할인 효용 모델은 에이전트가 현재 보상을 미래 보상보다 더 많이 할인하여 평가하는 슬라이딩 방식을 채택합니다. 그러나 이 방식 하에서 상수 수평선 할인 또는 쌍곡선 할인과 같은 일반적인 함수는 시간 비일관성을 초래합니다. 즉, 에이전트가 시간 1에서 수립한 장기 최적 계획이 시간이 지나 도달한 특정 역사(히스토리)에서 다시 최적성을 평가할 때 기각되어 계획이 수시로 변경되는 문제가 발생합니다. 저자들은 이 문제를 해결하기 위해 할인 함수가 에이전트의 현재 시점 k에 의존하는 '할인 행렬' 모델을 제안합니다. 이 일반화된 모델에서 정책 π의 기대 효용은 V^π_dk(h

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기