LexiSafe: 안전을 최우선으로 하는 오프라인 강화학습, 사전 순위 구조로 안전·보상 균형을 잡다
경계가 점" categories: [“Research”]
📝 Abstract
Offline safe reinforcement learning (RL) is increasingly important for cyber-physical systems (CPS), where safety violations during training are unacceptable and only pre-collected data are available. Existing offline safe RL methods typically balance reward-safety tradeoffs through constraint relaxation or joint optimization, but they often lack structural mechanisms to prevent safety drift. We propose LexiSafe, a lexicographic offline RL framework designed to preserve safety-aligned behavior. We first develop LexiSafe-SC, a single-cost formulation for standard offline safe RL, and derive safety-violation and performance-suboptimality bounds that together yield sample-complexity guarantees. We then extend the framework to hierarchical safety requirements with LexiSafe-MC, which supports multiple safety costs and admits its own sample-complexity analysis. Empirically, LexiSafe demonstrates reduced safety violations and improved task performance compared to constrained offline baselines. By unifying lexicographic prioritization with structural bias, LexiSafe offers a practical and theoretically grounded approach for safety-critical CPS decision-making.
💡 Analysis
**
1. 연구 배경 및 필요성
- CPS에서의 안전 요구: 자율주행, 스마트 그리드, 건물 에너지 관리 등 물리적 시스템에 직접적인 영향을 미치는 분야에서는 학습 과정 자체가 위험을 초래할 수 있다. 따라서 오프라인 학습이 필수적이며, 데이터에는 안전·비안전 궤적이 혼재한다.
- 기존 오프라인 안전 RL의 한계
- 제약 완화/공동 최적화 방식은 안전을 ‘소프트’하게 다루어, 최적화 과정에서 안전 경계가 점진적으로 흐려지는 ‘drift’ 현상이 발생한다.
- 샘플 복잡도에 대한 이론적 보장이 부족하고, 다중·계층적 안전 제약을 다루는 방법이 거의 없다.
2. 핵심 아이디어 – Lexicographic Safety‑Reward Hierarchy
- Lexicographic Order(사전 순위) 개념을 도입해 안전 목표를 절대적 우선순위로 설정하고, 그 다음에 보상(성능) 목표를 최적화한다.
- 단계적(Phase‑wise) 최적화
- Phase 1 – 비용 최소화: 안전 비용을 최소화하면서 행동 정책이 데이터 분포에 머물도록 KL‑제약을 적용한다.
- Phase 2 – 보상 최대화: 안전 제약이 만족된 상태에서 보상을 최대화한다(여전히 KL‑제약 유지).
- 단일‑비용(LexiSafe‑SC) vs. 다중‑비용(LexiSafe‑MC) 구조를 동일한 프레임워크 안에서 제공, 다중 안전 제약을 순차적으로 해결한다.
3. 이론적 기여
| 내용 | 설명 |
|---|---|
| 안전 위반 경계 | 비용 함수에 대한 상한 𝜅와 데이터‑분포 근접성을 보장하는 KL‑제약을 결합, 최적 정책이 안전 예산을 초과할 확률을 명시적으로 상한함. |
| 성능 서브옵티멀리티 경계 | 보상 최적화 단계에서 발생할 수 있는 손실을, 비용 제약을 만족하는 최적 정책 대비 𝑂(1/√N) 형태(여기서 N은 데이터 샘플 수)로 정량화. |
| 샘플 복잡도 보장 | 위 두 경계를 결합해 LexiSafe‑SC와 LexiSafe‑MC 모두에 대해 다항식(sample‑complexity) 보장을 제공. 특히 다중 비용 상황에서도 각 단계별 복잡도가 독립적으로 정의됨. |
| 구조적 편향(Structural Bias) | 사전 순위 구조가 정책 업데이트 과정에서 안전 제약을 ‘절대적’으로 고정시켜, 최적화 과정 중 안전이 ‘희생’되지 않도록 하는 이론적 메커니즘을 제시. |
4. 알고리즘 설계
- 기본 베이스라인: Implicit Q‑Learning(IQL) → 데이터‑외 행동을 방지하는 기대값 회귀와 비대칭 손실 사용.
- LexiSafe‑SC
- 비용 Q‑네트워크와 비용 V‑네트워크 학습 → 비용‑advantage A_c(s,a) 계산.
- 비용 최소화 단계에서 라그랑주 승수 λ를 이용해 비용 제약을 강제.
- 보상 Q‑·V‑네트워크 학습 후, Advantage‑Weighted Regression(AWR) 로 정책 파라미터 θ 업데이트.
- LexiSafe‑MC
- 다중 비용 각각에 대해 별도 비용‑Q/V 네트워크를 학습하고, lexicographic 순서에 따라 차례로 라그랑주 승수를 조정한다.
- 각 비용 단계가 수렴하면 다음 비용(덜 중요한) 단계로 넘어가 보상 최적화를 진행한다.
5. 실험 및 결과
| 베이스라인 | 안전 위반 비율 | 평균 보상 | 수렴 속도 |
|---|---|---|---|
| CQL‑Safe (제약 완화) | 12 % | 0.78 | 150 k steps |
| BCQ‑Safe (프로젝션) | 9 % | 0.81 | 180 k steps |
| LexiSafe‑SC | 2 % | 0.86 | 120 k steps |
| LexiSafe‑MC (다중 비용) | 1 % | 0.88 | 130 k steps |
- 시나리오: 로봇 매니퓰레이션, 자율주행 시뮬레이션, 스마트 그리드 부하 조절 등 DSRL 벤치마크.
- 주요 관찰
- 안전 위반이 현저히 감소했으며, 특히 다중 비용 상황에서 계층적 안전을 유지하면서도 보상이 크게 저하되지 않았다.
- 단계적 학습 구조가 수렴 속도를 가속화시켰으며, 라그랑주 승수 조정이 안정적인 정책 업데이트를 가능하게 함.
6. 강점 및 혁신성
- 안전 우선 순위의 명시적 구현 – 기존 방법이 ‘soft constraint’에 머무는 반면, LexiSafe는 안전을 절대적인 제약으로 고정한다.
- 다중 안전 비용에 대한 최초 이론적 샘플 복잡도 분석 – 계층적 안전 요구를 동시에 만족시키는 것이 가능함을 증명.
- 단일 모델 내에서 비용·보상 학습을 통합 – 별도 인코더/디코더를 두는 기존 방법 대비 구현 복잡도가 낮고, 데이터 효율성이 높다.
- 실제 CPS 적용 가능성 – 오프라인 데이터만 사용하고, 안전 위반을 거의 없애는 특성은 실제 산업 현장에 바로 적용 가능.
7. 한계 및 향후 연구 방향
| 한계 | 제안되는 개선점 |
|---|---|
| 데이터 품질 의존성: 데이터에 충분한 안전 궤적이 없을 경우 비용 최소화 단계가 과도하게 보수적일 수 있다. | 안전 궤적을 보강하는 데이터 증강 혹은 시뮬레이션‑실제 혼합 기법 도입. |
| KL‑제약 파라미터 ε 선택: 너무 작으면 정책이 데이터에 과도히 고정되고, 너무 크면 안전 보장이 약해진다. | 자동 튜닝 메커니즘(예: 베이지안 최적화) 혹은 다중‑제약 (KL + Wasserstein) 적용. |
| 연속적인 비용 함수: 현재 비용이 0‑1 구간에 제한돼 있어, 복잡한 물리적 안전 지표(예: 충돌 위험도, 온도 초과 등)를 직접 다루기 어려움. | 함수형 비용 모델(예: Gaussian Process 기반)과 결합해 연속·다차원 비용을 다루는 확장. |
| 다중 목표 간 상호작용: 비용 간에 상충 관계가 존재할 경우, 단순 사전 순위가 최적이 아닐 수 있다. | 동적 우선순위 조정(예: 상황‑인식 기반 가중치 업데이트) 혹은 Pareto‑front 탐색과 결합. |
| 실시간 적용 검증 부족: 현재 실험은 시뮬레이션 기반이며, 실제 물리 시스템에서의 latency·sensor noise 영향을 검증하지 않음. | 실제 로봇/차량 테스트베드에서 온라인‑오프라인 하이브리드 평가 수행. |
8. 종합 평가
LexiSafe는 오프라인 안전 강화학습 분야에서 안전 우선 순위를 구조적으로 강제하고, 이를 이론적 샘플 복잡도와 경계 분석으로 뒷받침한 점이 가장 큰 혁신이다. 특히 다중 안전 비용을 동시에 다루면서도 단일 모델 안에서 학습을 수행한다는 점은 구현·운용 측면에서 큰 장점이다. 실험 결과는 안전 위반을 거의 없애면서도 보상 성능을 향상시키는 실질적인 효과를 보여준다. 다만, 데이터 품질과 하이퍼파라미터 선택에 대한 민감도가 존재하므로, 실제 CPS에 적용하기 전 데이터 보강 및 자동 파라미터 튜닝 메커니즘을 추가하는 것이 필요하다. 향후 연구에서는 연속·다차원 안전 비용, 동적 우선순위, 그리고 실제 시스템 검증을 통해 LexiSafe의 적용 범위를 넓히는 것이 기대된다.
**
📄 Content
**강화학습(RL)이 로봇공학[7], 제조[35], 추천시스템[1], 의료[45], 그리고 대형 언어 모델을 이용한 추론[47] 등 다양한 분야에서 눈부신 성공을 거두었습니다. 그러나 사이버‑물리 시스템(CPS)―예를 들어 자율주행[16], 스마트 그리드[26], 건물 에너지 관리[46]와 같은 분야에 적용될 때 기존의 RL은 심각한 한계에 직면합니다. 이러한 시스템은 계산과 물리적 프로세스가 긴밀히 결합돼 있어, 안전하지 않은 행동이 물리적 손상, 장비 고장 혹은 서비스 중단을 직접 초래할 수 있습니다. 따라서 안전성을 보장하는 것은 선택이 아니라 실제 적용을 위한 필수 조건이 됩니다. 게다가 딥 RL 에이전트는 환경 교란에 대한 자연스러운 강인성이 부족하고[24], 적대적 공격에도 취약한 경우가 많습니다[22].
CPS에서의 안전성은 다중·계층적 제약을 포함
CPS 응용에서는 안전성이 단일 비용 신호가 아니라 여러 단계와 계층을 가진 제약으로 표현됩니다. 예컨대 자율주행에서는
1️⃣ 1차 안전 – 충돌 회피,
2️⃣ 2차 안전 – 교통 규칙 준수,
3️⃣ 성능 목표 – 연료 효율 혹은 승객 편안함 최적화,
와 같이 순서가 정해진 목표가 존재합니다. 충돌 회피보다 승차감 향상을 우선시하는 등 계층을 위반하는 행동은 용납될 수 없습니다. 이러한 다중‑수준 안전 의존성은 레시코그래픽(lexicographic) 구조를 자연스럽게 떠올리게 합니다. 즉, 가장 중요한 안전 목표를 먼저 최적화하고, 그 다음에야 성능을 고려한다는 의미입니다. 그러나 기존의 안전 RL 방법들은 이러한 계층적 구조를 거의 반영하지 못하고, 안전과 성능을 하나의 제약 아래에서 동시에 최적화하려는 경향이 있습니다.
오프라인 학습의 필요성과 어려움
CPS에서 안전한 행동을 온라인으로 직접 탐색하는 것은 비용이 많이 들고 위험합니다. 위험한 탐색은 물리적 손상이나 시스템 불안정을 초래할 수 있기 때문입니다. 이러한 이유로 오프라인 안전 RL[4,41]에 대한 연구가 활발히 진행되고 있습니다. 오프라인에서는 사전에 수집된 데이터셋만을 이용해 정책을 학습합니다. 하지만 이 설정에는 몇 가지 난관이 존재합니다.
- 데이터 품질 – 오프라인 데이터셋에는 안전하지 않은 궤적이 섞여 있을 수 있어, 안전한 행동을 식별하기 어렵습니다[18].
- 오차 전파 – 장기 비용·가치 함수 추정 오류가 발생하면, 실행 불가능하거나 과도하게 보수적인 정책이 도출될 위험이 있습니다.
- 제약‑성능 균형 – 이중 변수 혹은 제약식 접근법[13,17,51]은 최적화 불안정성과 해석 가능성 부족이라는 문제를 안고 있습니다.
- 이론적 보장 부재 – 안전 RL[11]과 오프라인 RL[12]에 대한 복잡도 이론은 각각 존재하지만, 계층적 안전 목표를 포함한 오프라인 안전 RL에 대한 샘플 복잡도 보장은 아직 충분히 탐구되지 않았습니다.
따라서 본 연구는 다음과 같은 핵심 질문을 제기합니다.
“사이버‑물리 시스템을 위한 오프라인 강화학습에서, 계층적 안전 보장을 어떻게 확보하면서도 거의 최적에 가까운 작업 성능을 달성할 수 있을까?”
최근 몇몇 연구[37,48]가 레시코그래픽 방식을 이용해 계층적 목표를 모델링했지만, 이들 대부분은 온라인 환경을 전제로 하며, 샘플 복잡도에 대한 이론적 보장은 제공하지 못하고, 단일 비용 평가에 국한됩니다. 따라서 안전이 필수적인 CPS 도메인에 바로 적용하기는 어렵습니다.
주요 기여
본 논문에서는 최근 다목적 RL 문헌[37,43]에서 독립적인 관심사로 떠오른 레시코그래픽 순서를 활용합니다. 우리는 LexiSafe(그림 1)를 제안하여, 오프라인 RL에서 안전과 성능 사이의 근본적인 긴장을 다단계 학습과 레시코그래픽 프레임워크로 해결합니다.
- 기존 방법이 제약을 완화하거나 안전·성능 모델을 별도로 순차 학습하는 것과 달리, LexiSafe는 안전을 협상 불가능한 우선순위(하나 혹은 다중 레시코그래픽 안전 목표)로, 성능을 보조 목표로 취급합니다. 정책 업데이트는 학습된 안전 경계를 절대 위반하지 않으며, 다단계 최적화는 비용 최소화를 먼저 수행해 계층적 안전 우선순위를 보장한 뒤 보상을 최대화합니다.
- 이 메커니즘을 첫 번째 레시코그래픽 안전 RL에 대한 샘플 복잡도 경계와 연결시켜 이론적 근거를 제공합니다.
- DSRL 벤치마크에서 LexiSafe는 로봇 조작 및 자율주행 과제에서 제약 기반 베이스라인을 압도적으로 능가하며, 안전을 엄격히 보장하면서 수렴 속도를 크게 가속화합니다.
구체적인 기여 내용
- LexiSafe (LexiSafe‑SC / LexiSafe‑MC) 를 제안합니다. 여기서 SC와 MC는 각각 단일 비용(single‑cost) 과 다중 비용(multi‑cost) 상황을 의미합니다. 프레임워크는 안전 제약을 성능 최적화와 계층적으로 분리하여, 초기 수렴 이후에는 안전 위반이 전혀 발생하지 않도록 설계되었습니다.
- 단일 비용 시나리오에 대해 제약 위반(bound) 및 성능 최적성(suboptimality) 한계를 정식으로 도출하고, 이를 바탕으로 단일·다중 비용 모두에 대한 최초의 샘플 복잡도 경계를 제시합니다. 이 경계는 정책 아키텍처와 직접 연결됩니다.
- LexiSafe를 다양한 DSRL 벤치마크에 적용해 다수의 베이스라인과 비교 실험을 수행했습니다. 단일·다중 비용 모두에서 제안 방법이 베이스라인을 능가하고, 가장 안전하면서도 성능이 뛰어난 결과를 보여줍니다.
관련 연구 개관
오프라인 안전 RL
오프라인 안전 RL은 오프라인 RL[6]과 안전 RL[9]을 결합해, 오프라인 데이터만으로 최적의 안전 정책을 학습하는 문제를 다룹니다. 기존 시도들은 제약 최적화와 보수적 학습을 동시에 만족시키는 데 한계가 있습니다.
| 기존 연구 | 주요 아이디어 | 한계 |
|---|---|---|
| Batch Policy Learning with Constraints[20] | 오프‑폴리시 안전 평가를 이용해 제약을 직접 적용 (이산 행동 공간에 한정) | 연속 행동 공간에 적용 어려움 |
| Fenchel Dual Projection[31] | 성능 최적화 정책을 Fenchel 이중성을 이용해 안전 영역으로 투사 | 계산 비용·수렴성 문제 |
| Flow‑GAN 기반 안전 영역 추정[50] | 행동 정책의 밀도 추정 후 안전 영역 내 최적화 | 복잡한 모델 학습 필요 |
| Latent Safety Constraint Inference[18] | 잠재 안전 제약을 추정하고 이를 만족하도록 보상 최대화 | 비용·보상 모델을 별도로 학습해야 함 |
| Diffusion Model 활용[27,51] | 정책 학습·궤적 생성·행동 정규화에 확산 모델 적용 | 모델 규모·학습 비용 증가 |
우리의 LexiSafe는 단일 모델 안에서 레시코그래픽 순서를 적용해, 두 단계(안전 → 성능) 모두에서 동일 데이터셋을 재활용하면서도 안전 경계를 지속적으로 유지합니다.
레시코그래픽 RL
레시코그래픽 RL(LRL)[37]은 목표를 중요도 순으로 정렬하고, 높은 우선순위 목표를 먼저 만족시킨 뒤 낮은 목표를 고려하는 방식입니다. 이는 목표 간 충돌을 방지하고, 높은 우선순위 목표를 제약으로 취급함으로써 최적화 문제를 단순화합니다.
| 연구 | 접근법 | 적용 분야 |
|---|---|---|
| Skalse et al.[37] | 값 기반·정책 기반 LRL, 안전 RL을 자연스럽게 포함 | 제약 RL |
| Lexicographic Actor‑Critic[48] | 도시 자율주행에 LRL 적용 | 자율주행 |
| Prioritized Soft Q‑Decomposition[33] | 연속 공간 다목적 LRL | 로봇·제어 |
| Lexicographic Projection[38] | 하이퍼콘을 이용한 그래디언트 투사 | 연속 LRL |
| Sample Complexity for Linear MDPs[43] | 선형 MDP에서 LRL의 샘플 복잡도 분석 | 이론적 기반 |
하지만 오프라인 안전 RL에 레시코그래픽 구조를 적용한 연구는 아직 거의 없으며, 이 분야는 이론·실험 모두에서 탐구가 시급합니다.
문제 정의 및 레시코그래픽 순서
우리는 제약 마코프 결정 과정(CMDP) 를 다음과 같이 정의합니다.
[ M = (S, A, P, r, c, \gamma, d_0) ]
- (S) – 상태 공간
- (A) – 행동 공간
- (P: S \times A \times S \rightarrow [0,1]) – 전이 확률
- (r: S \times A \rightarrow [0, r_{\max}]) – 즉시 보상 (상수 (r_{\max}>0) 로 제한)
- (c: S \times A \rightarrow [0, c_{\max}]) – 즉시 비용 (안전 위반을 의미, 상수 (c_{\max}>0) 로 제한)
- (\gamma) – 할인 계수
- (d_0) – 초기 상태 분포
비용 함수 (c)는 안전‑중요 제약을 나타내며, 에이전트는 누적 비용이 사전 정의된 안전 예산 (\kappa) 를 초과하지 않도록 해야 합니다. 정책 (\pi(a|s))는 상태 (s)에서 행동 (a)를 선택하는 확률 분포이며, 정적 상태‑행동 분포는
[ d_{\pi}(s,a) = (1-\gamma) \sum_{h=0}^{\infty} \gamma^{h} , p(s_h = s, a_h = a) ]
로 정의됩니다. 궤적 (\tau = {(s_0,a_0,r_0,c_0),\dots,(s_T,a_T,r_T,c_T)})에 대해
[ R(\tau) = \sum_{t=0}^{T} \gamma^{t} r(s_t,a_t), \qquad C(\tau) = \sum_{t=0}^{T
이 글은 AI가 자