시간적 불확실성을 활용한 스토캐스틱 액터크리틱
오프‑폴리시 액터‑크리틱 방식은 비평가(critic)를 TD 업데이트로 학습시키고, 이를 정책(actor)의 학습 신호로 활용한다. 이 구조는 순수 온‑폴리시 방법보다 샘플 효율성이 높지만, 비평가가 가치 값을 지속적으로 과대평가하는 경향이 있다. 기존 연구는 데이터 부족과 모델 모호성에서 비롯되는 에피스테믹 불확실성을 앙상블로 추정해 비관적 편향을 부여함
초록
오프‑폴리시 액터‑크리틱 방식은 비평가(critic)를 TD 업데이트로 학습시키고, 이를 정책(actor)의 학습 신호로 활용한다. 이 구조는 순수 온‑폴리시 방법보다 샘플 효율성이 높지만, 비평가가 가치 값을 지속적으로 과대평가하는 경향이 있다. 기존 연구는 데이터 부족과 모델 모호성에서 비롯되는 에피스테믹 불확실성을 앙상블로 추정해 비관적 편향을 부여함으로써 이를 완화한다. 본 연구는 전이, 보상, 정책에 의해 발생하는 일단계 시간적 알레아토릭(aleatoric) 불확실성을 이용해 TD 업데이트에 비관적 보정을 적용하는 Stochastic Actor‑Critic(STAC) 알고리즘을 제안한다. STAC은 단일 분포형 비평가 네트워크로 반환의 불확실성을 모델링하고, 비평가와 정책 모두에 드롭아웃을 적용해 정규화를 수행한다. 실험 결과, 분포형 비평가만으로도 과대평가를 충분히 억제하고, 불확실한 환경에서 위험 회피 행동을 자연스럽게 유도함을 확인하였다. 드롭아웃은 학습 안정성과 성능을 추가로 향상시키며, 단일 분포형 비평가 사용으로 계산 효율성도 개선된다.
상세 요약
본 논문은 강화학습에서 가장 널리 사용되는 오프‑폴리시 액터‑크리틱 프레임워크가 안고 있는 ‘가치 과대평가’ 문제에 새로운 관점을 제시한다. 전통적으로 과대평가는 비평가가 학습 데이터의 부족이나 모델 파라미터의 불확실성(에피스테믹 불확실성) 때문에 발생한다고 보고, 이를 해결하기 위해 여러 비평가를 앙상블하거나 베이지안 신경망을 도입해 불확실성을 추정한다. 그러나 이러한 방법은 추가적인 네트워크 복제와 연산 비용을 요구하며, 에피스테믹 불확실성 자체가 실제 환경의 변동성을 충분히 반영하지 못한다는 한계가 있다.
STAC은 이러한 한계를 넘어, ‘시간적 알레아토릭 불확실성’에 초점을 맞춘다. 알레아토릭 불확실성은 환경 전이 확률, 보상 함수의 내재적 노이즈, 그리고 현재 정책이 생성하는 행동의 확률적 변동성에서 비롯된다. 즉, 동일한 상태‑행동 쌍에 대해 여러 번 샘플링하면 서로 다른 다음 상태와 보상이 관측될 수 있다. 이러한 변동성은 Bellman 목표 자체에 불확실성을 내재시키며, 이를 정량화하면 TD 업데이트에 비관적 보정을 적용할 수 있다.
구현 측면에서 저자들은 단일 분포형 비평가 네트워크를 사용한다. 이 네트워크는 반환(return)의 확률분포(예: 가우시안 혹은 이산형 분포)를 직접 출력함으로써, 각 샘플에 대한 평균값뿐 아니라 분산(또는 분위수)까지 제공한다. 분산은 바로 알레아토릭 불확실성의 추정치가 되며, 저자는 이 값을 이용해 ‘pessimistic target’ = mean − β·σ 형태의 목표값을 만든다. 여기서 β는 불확실성에 대한 비관적 정도를 조절하는 하이퍼파라미터이다.
또한, 드롭아웃을 비평가와 정책 모두에 적용함으로써 모델 자체에 작은 랜덤성을 부여한다. 드롭아웃은 전통적인 정규화 기법으로 알려져 있지만, 여기서는 두 가지 추가 효과를 제공한다. 첫째, 학습 과정에서 네트워크가 다양한 서브모델을 경험하게 하여 과적합을 방지한다. 둘째, 드롭아웃이 적용된 상태에서의 분포형 출력은 실제 알레아토릭 불확실성 외에 모델 내부의 작은 변동성까지 포괄하게 되어, 보다 견고한 비관적 보정이 가능해진다.
실험 결과는 세 가지 중요한 시사점을 제공한다. (1) 에피스테믹 불확실성을 별도로 추정하지 않아도, 알레아토릭 불확실성만으로 충분히 과대평가를 억제할 수 있다. (2) 알레아토릭 기반 비관적 보정은 불확실성이 큰 환경(예: 랜덤 보상, 확률적 전이)에서 자연스럽게 위험 회피 정책을 학습하게 만든다. 이는 안전-critical한 응용 분야에서 큰 장점이 된다. (3) 단일 분포형 비평가와 드롭아웃만으로도 기존 앙상블 기반 방법과 동등하거나 더 나은 성능을 달성하면서, 메모리와 연산량을 크게 절감한다.
이러한 접근은 강화학습 연구에서 ‘불확실성’이라는 개념을 에피스테믹과 알레아토릭으로 명확히 구분하고, 각각의 특성에 맞는 활용 방안을 제시한다는 점에서 학문적 가치가 크다. 앞으로는 다단계(멀티‑step) 알레아토릭 불확실성, 혹은 환경 모델링과 결합한 하이브리드 불확실성 추정 기법으로 확장할 여지가 있다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...