희소 보상 과정과 호기심 기반 학습
초록
이 논문은 에이전트가 연속적인 과제들을 수행하면서 서로 연관된 정보를 활용하도록 설계된 “희소 보상 과정(Sparse Reward Process)”이라는 새로운 학습 프레임워크를 제시한다. 다단계 확률 게임 형태로 모델링하고, 현재 과제에 필요한 학습과 미래에 대비한 탐색 사이의 균형을 이론적으로 분석한다. 알고리즘 설계와 실험을 통해 호기심 기반 탐색이 장기 성과를 향상시킴을 보인다.
상세 분석
논문은 전통적인 강화학습이 단일 목표와 즉각적인 보상에 초점을 맞추는 반면, 실제 생활에서는 여러 과제가 순차적으로 제시되고 이들 사이에 구조적 연관성이 존재한다는 점을 강조한다. 이를 반영하기 위해 저자들은 “희소 보상 과정(Sparse Reward Process, SRP)”이라는 다단계 확률 게임을 정의한다. 게임은 학습 에이전트와 적대적 혹은 자연스러운 환경을 모델링하는 ‘상대(opponent)’ 사이에서 진행되며, 각 단계 t에서 에이전트는 상태 s_t, 행동 a_t를 선택하고, 그에 대한 보상 r_t는 매우 드물게(희소하게) 나타난다. 중요한 점은 보상이 나타나는 시점과 위치가 사전에 알려지지 않으며, 보상이 발생하는 환경의 구조는 여러 과제에 걸쳐 공유된다는 것이다. 따라서 한 과제에서 얻은 전이 확률이나 보상 분포에 대한 사후 정보는 미래 과제에서의 의사결정에 직접적인 가치를 제공한다.
이러한 설정은 두 가지 핵심 목표를 동시에 고려한다. 첫째, 현재 과제의 기대 보상을 최대화하는 ‘즉시 최적화(exploitation)’; 둘째, 미래에 발생할 수 있는 새로운 과제에 대비해 환경 모델을 확장하는 ‘탐색(exploration)’. 기존의 탐색-활용 균형은 주로 단일 마코프 결정 과정(MDP) 내에서 정의된 탐색 보너스(예: UCB, Thompson Sampling)로 해결되지만, SRP에서는 탐색 보상이 직접적인 보상으로 나타나지 않기 때문에 전통적 방법이 적용되기 어렵다. 저자들은 이를 해결하기 위해 ‘정보 가치(information gain)’를 정량화하고, 기대 정보량이 높은 상태·행동 쌍을 우선적으로 선택하는 ‘호기심 기반 정책(curiosity-driven policy)’을 제안한다. 구체적으로, 베이지안 업데이트를 통해 환경 파라미터 θ에 대한 사후 분포를 유지하고, 각 행동 a에 대해 기대 엔트로피 감소 ΔH(θ|a) 를 계산한다. 이 값이 큰 행동은 미래 과제에서의 불확실성을 크게 감소시킬 가능성이 높으므로, 정책 π는 ΔH를 보상 기대값과 가중합하여 최적화한다.
알고리즘적 측면에서는 두 가지 접근법을 제시한다. 첫 번째는 ‘정보-보상 혼합(IRM)’ 알고리즘으로, 매 단계마다 보상 기대값과 정보 가치 사이에 조정 파라미터 β∈
댓글 및 학술 토론
Loading comments...
의견 남기기