샘플링 기반 가중치 공간 투영을 통한 제약 정책 최적화
초록
SCPO는 안전 백업 정책을 초기화로 삼아, 샘플링된 롤아웃과 지역 평활성 가정을 이용해 가중치 공간에서 안전 영역을 근사한다. 각 그래디언트 업데이트를 볼록 SOCP 형태로 투영함으로써, 제약을 만족하는 안전한 파라미터 업데이트를 보장하고, 안전 초기화로부터 모든 학습 단계에서 제약 위반이 발생하지 않도록 설계되었다.
상세 분석
본 논문은 안전이 필수적인 제어 및 강화학습 문제에서, 파라미터 자체가 안전 제약을 만족하도록 하는 새로운 최적화 프레임워크 SCPO를 제안한다. 핵심 아이디어는 “백업 정책 + 잔차 신경망” 구조를 이용해 초기 파라미터를 안전하게 만들고, 이후 파라미터 변화를 작은 샘플 집합 D와 해당 변동에 대한 안전 지표 g(θ) 로 평가한다. 가정 1에 따라 각 제약 함수 g_i는 지역 L‑smooth 하다고 가정하고, 이를 바탕으로 2차 근사식 g_i(θ+Δθ) ≤ g_i(θ) + ∇g_i(θ)^TΔθ + (L_i/2)‖Δθ‖² 를 도출한다.
이 근사식은 제약을 만족하는 충분조건을 제공하며, 원래의 비선형 제약을 볼록 2차 제약으로 변환한다. 그러나 직접적인 Jacobian J_g(θ) 계산은 고차원 파라미터 d에 비해 비용이 크다. 논문은 이를 해결하기 위해 Δθ 를 D의 선형 결합 Δθ = Dc (c∈ℝ^m) 로 제한하고, D의 열벡터들을 최근의 체크포인트와 그에 대응하는 g값으로 구성한다. 이렇게 하면 제약식은 c에 대한 2차식으로 변환되고, 목표 함수 역시 ‖Dc−Δθ_raw‖² 형태의 2차식이 된다. 최종 문제는
min_c (c−e_m)^T S (c−e_m)
s.t. (1−1^Tc) g(θ_t) + Gc + ½
댓글 및 학술 토론
Loading comments...
의견 남기기