희소 보상 환경을 위한 내재 보상 정책 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

IRPO는 여러 내재 보상을 이용해 탐색 정책을 학습하고, 그 탐색 정책의 외재 보상 그라디언트를 기반으로 베이스 정책을 직접 업데이트하는 새로운 정책 최적화 프레임워크이다. 희소 보상 상황에서 기존 정책 그라디언트가 거의 사라지는 문제를 보완하고, 사전 학습된 서브폴리시 없이도 샘플 효율성과 성능을 크게 향상시킨다.

상세 분석

본 논문은 강화학습에서 희소 보상 문제를 해결하기 위해 “내재 보상 정책 최적화(IRPO)”라는 새로운 알고리즘을 제안한다. 기존의 탐색 방법은 행동 공간에 노이즈를 추가하거나 정책 파라미터에 잡음을 주입하는 방식으로, 상태‑행동 공간을 충분히 탐색하지 못해 보상이 거의 없는 구간에서 학습이 정체된다. 또 다른 접근법인 내재 보상 기반 방법은 외재 보상에 내재 보상을 더해 정책을 직접 최적화하지만, 보상 스케일이 맞지 않을 경우 외재 보상이 가려지는 신용 할당 문제를 야기한다. 계층적 강화학습은 사전 학습된 서브폴리시를 이용해 탐색을 촉진하지만, 서브폴리시가 고정된 시간‑스케일을 갖게 되면서 미세한 의사결정이 제한되고, 서브폴리시 학습에 추가적인 샘플이 필요해 비효율적이다.

IRPO는 이러한 한계를 극복한다. 핵심 아이디어는 K개의 서로 다른 내재 보상 ˜Rₖ를 정의하고, 각 ˜Rₖ에 대해 탐색 정책 ˜πₖ를 베이스 정책 πθ에서 복제한 뒤, 내재 보상만을 사용해 N번의 정책 그라디언트 업데이트를 수행한다. 이 과정에서 각 탐색 정책은 자체 내재 비평가 V˜ϕₖ와 외재 비평가 Vϕₖ를 유지한다. 내재 비평가는 탐색 정책을 내재 보상에 맞게 최적화하고, 외재 비평가는 해당 탐색 정책이 외재 보상을 얼마나 얻는지 추정한다.

핵심은 “IRPO 그라디언트”를 정의함으로써 베이스 정책을 직접 외재 보상 방향으로 업데이트한다는 점이다. 구체적으로 각 탐색 정책 ˜πₖ에 대한 외재 보상 그라디언트 ∇θJ_R(˜θₖ)를 계산하고, 이를 탐색 정책 업데이트 과정에서 얻은 Jacobian(∂˜θₖ/∂θ)와 체인 룰을 통해 베이스 파라미터 θ에 대한 그라디언트로 역전파한다. 가중치 ωₖ는 탐색 정책이 얻은 외재 보상 값을 소프트맥스 형태로 정규화한 것으로, 온도 파라미터 τ가 0에 가까워질수록 가장 높은 외재 보상을 얻은 탐색 정책에 집중한다.

이러한 설계는 두 가지 중요한 이점을 제공한다. 첫째, 희소 보상 환경에서 실제 정책 그라디언트가 거의 0에 수렴한다는 이론적 결과(코릴러리 3.1)를 회피한다. 탐색 정책은 내재 보상으로 충분히 탐색하므로, 외재 보상이 드물게 나타날 때도 의미 있는 그라디언트를 얻을 수 있다. 둘째, 베이스 정책은 탐색 정책들의 외재 보상 성능을 직접 최적화하므로, 서브폴리시를 사전 학습할 필요가 없으며, 탐색 범위가 정책 파라미터 전체에 걸쳐 연속적으로 확장된다.

알고리즘은 신뢰 구역(TRPO) 업데이트를 사용해 급격한 파라미터 변화를 억제한다. 비록 IRPO 그라디언트가 기존 정책 그라디언트와 동일한 단조성 보장을 갖지는 않지만, 실험적으로는 더 안정적인 학습 곡선을 보인다.

실험에서는 MiniGrid와 MuJoCo와 같은 이산·연속 환경에서 기존 노이즈 주입, 불확실성 기반 내재 보상, 계층적 RL 방법들을 비교하였다. IRPO는 동일한 샘플 수에서 평균 보상이 크게 향상되었으며, 특히 보상이 거의 없는 초기 단계에서 탐색 효율이 눈에 띄게 좋았다. 추가적인 ablation 연구에서는 K값, N값, 온도 τ 스케줄링 등이 성능에 미치는 영향을 분석했으며, 내재 보상으로 diffusion‑maximizing 보상을 사용했음에도 다른 형태의 내재 보상으로 교체해도 기본 아이디어는 유지된다는 점을 확인했다.

이 논문은 “내재 보상으로 탐색을 강화하고, 그 탐색 결과를 외재 보상 최적화에 직접 활용한다”는 새로운 패러다임을 제시한다. 기존 방법들의 신용 할당 불안정성, 서브폴리시 사전 학습 비용, 탐색 범위 제한 등을 동시에 해결하면서도 이론적 근거와 실험적 검증을 제공한다. 향후 연구에서는 내재 보상의 자동 설계, 탐색 정책의 다중 단계 연쇄, 그리고 대규모 멀티에이전트 환경에의 확장 가능성을 탐색할 여지가 있다.

희소 보상 환경을 위한 내재 보상 정책 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기