Title: SB-TRPO: Towards Safe Reinforcement Learning with Hard Constraints
ArXiv ID: 2512.23770
발행일: 2025-12-29
저자: Ankit Kanwar, Dominik Wagner, Luke Ong
📝 초록 (Abstract)
안전이 중요한 분야에서는 강화학습(RL) 에이전트가 작업을 수행하면서도 비용이 전혀 발생하지 않는 엄격한 제약을 만족해야 한다. 기존의 모델프리 방법들은 거의 제로에 가까운 안전 위반을 달성하지 못하거나 지나치게 보수적으로 동작한다. 본 논문에서는 비용 감소와 보상 향상을 동적으로 균형 맞추는 원칙적인 알고리즘인 Safety‑Biased Trust Region Policy Optimisation(SB‑TRPO)을 제안한다. SB‑TRPO는 매 업데이트 단계에서 보상과 비용에 대한 자연 정책 그라디언트를 가중합하여, 최적 비용 감소의 일정 비율을 보장하면서 남은 업데이트 용량을 보상 개선에 활용한다. 이 방법은 안전성에 대한 지역적 진행을 보장하는 형식적 이론적 근거를 제공하며, 그라디언트가 충분히 정렬될 경우 보상도 동시에 향상된다. 표준 및 난이도 높은 Safety Gymnasium 환경에서의 실험 결과, SB‑TRPO는 하드 제약 상황에서 안전성과 작업 성능 사이의 최적 균형을 지속적으로 달성한다는 것을 보여준다.
💡 논문 핵심 해설 (Deep Analysis)
본 논문이 다루는 핵심 문제는 “안전 제약이 절대적으로 강제되는 상황에서 강화학습 에이전트를 어떻게 효율적으로 학습시킬 것인가”이다. 기존의 안전 강화학습 접근법은 크게 두 가지로 나뉜다. 첫 번째는 비용(또는 위험) 신호를 라그랑주 승수 형태로 보상에 가중치를 부여해 최적화하는 방법으로, 이 경우 비용을 완전히 없애는 것이 보장되지 않는다. 두 번째는 제약을 만족하는 정책 집합을 사전에 정의하고 그 안에서만 탐색하는 보수적 방법인데, 탐색 공간이 과도하게 제한돼 학습 효율이 급격히 떨어진다. 이러한 한계를 극복하기 위해 저자들은 ‘동적 convex 조합’이라는 새로운 아이디어를 도입한다. 구체적으로, 정책 업데이트 시 자연 정책 그라디언트(Natural Policy Gradient, NPG)를 보상에 대한 NPG와 비용에 대한 NPG로 분리하고, 두 그라디언트 사이에 가중치 λ∈
📄 논문 본문 발췌 (Translation)
안전이 중요한 분야에서는 강화학습(RL) 에이전트가 작업을 수행하면서도 비용이 전혀 발생하지 않는 엄격한 제약을 만족해야 한다. 기존의 모델프리 방법들은 거의 제로에 가까운 안전 위반을 달성하지 못하거나 지나치게 보수적으로 동작한다. 이러한 문제를 해결하고자 본 논문에서는 비용 감소와 보상 향상을 동적으로 균형 맞추는 원칙적인 알고리즘인 Safety‑Biased Trust Region Policy Optimisation(SB‑TRPO)을 제안한다.
SB‑TRPO는 매 업데이트 단계에서 보상과 비용에 대한 자연 정책 그라디언트를 각각 계산한 뒤, 두 그라디언트의 동적 convex 조합을 수행한다. 구체적으로, 업데이트 용량을 제한하는 KL‑다이버전스 제약 하에서, 비용 감소에 대한 일정 비율(예: 70 %)을 보장하도록 가중치 λ을 선택하고, 남은 용량을 보상 개선에 활용한다. 이 과정은 비용 감소를 우선시하면서도 보상이 가능한 한 향상되도록 설계되었다.
이 알고리즘은 두 가지 형식적 보장을 제공한다. 첫째, 선택된 λ에 따라 비용이 지역적으로 단조 감소함을 보장한다. 둘째, 비용 그라디언트와 보상 그라디언트가 양의 내적을 가질 경우, 즉 두 방향이 어느 정도 정렬될 경우 전체 업데이트가 보상도 동시에 향상시킨다. 따라서 비용을 거의 0에 가깝게 유지하면서도 보상을 개선할 수 있다.
실험은 표준 Safety Gymnasium 환경과 보다 어려운 변형 환경에서 수행되었다. 하드 제약(Zero‑Cost) 설정에서 SB‑TRPO는 기존의 PPO‑Lagrangian, Constrained Policy Optimization(CPO), 그리고 최신 모델프리 안전 RL 방법들에 비해 평균 비용을 거의 0에 가깝게 유지하면서도 평균 누적 보상을 5 %~15 % 정도 향상시켰다. 특히 학습 초기 단계에서 비용 감소가 빠르게 이루어지는 것을 확인했으며, 이는 동적 λ 조정 메커니즘이 초기 탐색 단계에서 안전성을 빠르게 확보한다는 증거이다.
결론적으로 SB‑TRPO는 “안전은 절대적인 제약, 성능은 가능한 한 최적화”라는 목표를 수학적으로 명확히 정의하고, 이를 구현하기 위한 실용적인 알고리즘을 제공한다. 향후 연구에서는 본 프레임워크를 모델 기반 방법, 멀티‑에이전트 시나리오, 혹은 복합 제약(다중 비용) 상황에 확장하는 것이 기대된다.