엔트로피 정규화로 구현하는 미래 행동 가능성 기반 강인 안전 강화
초록
본 논문은 엔트로피 정규화와 제약 페널티를 결합하면, 제약을 만족하는 행동 집합을 최대화하는 정책을 학습하게 되어 행동 잡음에 강인한 안전성을 확보한다는 점을 실험적으로 입증한다. 또한, 충분히 큰 페널티를 사용하면 제약식 강화학습 문제를 무제한 형태로 근사할 수 있음을 보이며, 기존 모델‑프리 RL 알고리즘으로도 안전하고 강인한 정책을 얻을 수 있음을 제시한다.
상세 분석
이 논문은 두 가지 널리 사용되는 모델‑프리 강화학습 기법, 즉 최대 엔트로피 정규화와 제약 위반에 대한 페널티 방식을 조합함으로써 “강인 안전”(robust safety)을 달성한다는 새로운 관점을 제시한다. 핵심 아이디어는 엔트로피 정규화가 정책을 상태‑행동 공간에서 가능한 미래 행동 수(viable actions) 를 최대화하도록 유도한다는 점이다. 엔트로피 항이 클수록(즉, 온도 파라미터 α가 클수록) 정책은 확률 분포가 넓어지면서, 제약 경계에 가까운 상태에서 선택 가능한 행동이 적은 경우를 피하려는 경향을 보인다. 이는 제약을 위반할 위험이 높은 “취약” 상태를 회피하게 만들고, 결과적으로 행동 잡음(액션 노이즈)이 발생하더라도 정책이 여전히 안전한 영역 안에 머무를 확률이 높아진다.
논문은 이를 정량화하기 위해 viability kernel(X_V)과 viable set(Q_V)을 도입하고, 엔트로피 정규화된 정책의 누적 할인 엔트로피 S(x,π)를 “미래에 가능한 안전 행동의 기대 수”의 대리 변수로 해석한다. 이 해석을 바탕으로, 엔트로피 정규화가 제약 경계에서 멀어지는 경향을 보이는 것을 실험(Fig. 1, fenced‑cliff 환경)으로 입증한다. 온도 파라미터 α를 증가시킬수록 정책의 mode(가장 확률이 높은 행동 경로)가 제약으로부터 더 멀리 떨어지며, 이는 행동 잡음이 커져도 목표에 도달하는 데 성공률이 유지되는 형태로 나타난다.
두 번째 주요 기여는 페널티 기반 근사이다. 기존 연구
댓글 및 학술 토론
Loading comments...
의견 남기기