조건부 시퀀스 모델링 기반 안전 강화학습

조건부 시퀀스 모델링 기반 안전 강화학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 오프라인 안전 강화학습에서 하나의 정책으로 다양한 비용 제한에 제로샷으로 대응할 수 있도록, 반환‑비용 조건을 이용한 시퀀스 모델링(Decision Transformer) 위에 라그랑주식 비용 페널티와 자동 적응형 듀얼 업데이트를 결합한 RCDT 알고리즘을 제안한다. 트래젝터리 재가중치와 Q‑값 정규화를 추가해 과도한 보수성을 완화하고, 이론적 커버리지 분석을 통해 조건 신호와 실제 반환·비용 간 차이를 정량화한다. DSRL 벤치마크 실험에서 다중 비용 임계값에 걸쳐 기존 방법들을 지속적으로 능가한다.

상세 분석

RCDT는 기존 Decision Transformer(DT)의 구조를 그대로 유지하면서, 안전 제약을 다루기 위해 두 가지 핵심 메커니즘을 도입한다. 첫 번째는 라그랑주식 비용 페널티를 적용한 듀얼 변수 λ를 도입해, 비용 기대값이 사전 정의된 임계값 κ를 초과하면 λ를 증가시키고, 반대로 충분히 안전하면 감소시키는 자동 적응형 업데이트 방식을 채택한다. 이는 전통적인 Lagrangian 방법이 사전에 고정된 λ값에 의존하는 문제를 해소하고, 하나의 모델이 다양한 κ값에 대해 동적으로 조정될 수 있게 만든다. 두 번째는 트래젝터리 수준의 재가중치 메커니즘이다. 데이터셋 내 각 트래젝터리 τ에 대해 반환‑비용 쌍 (R(τ), C(τ))이 목표 반환‑비용 프로파일 F(s₁)와 얼마나 일치하는지를 측정하고, 일치도가 높은 트래젝터리에 가중치를 부여한다. 이 과정은 “전문가 KL 정규화”를 일반화한 형태로 해석될 수 있으며, 데이터가 희소한 안전 고수익 영역을 강조함으로써 과도한 보수성을 완화한다. 또한 Q‑값 정규화를 손실에 추가해, 모델이 단순히 조건 토큰을 맞추는 수준을 넘어 실제 높은 Q‑값을 갖는 행동을 선호하도록 유도한다.

이론적 분석에서는 조건 함수 F가 데이터 커버리지를 얼마나 확보하고 있는지를 α_F라는 하한값으로 정의하고, 반환‑비용 신호와 실제 기대 반환·비용 사이의 차이가 O(ε·(1/α_F)·H²) 로 상한을 갖는 것을 증명한다. 즉, 데이터셋에 목표 반환‑비용 프로파일이 충분히 포함되지 않으면 조건 신호만으로는 원하는 행동을 보장할 수 없으며, 이는 기존의 CTG‑조건 DT가 불안정하거나 제약 위반을 일으키는 원인으로 작용한다. RCDT는 이 한계를 인식하고, 재가중치와 Q‑정규화를 통해 학습이 자연스럽게 높은 α_F 영역으로 집중되도록 설계되었다.

실험에서는 DSRL 벤치마크의 6개 환경에 대해 비용 임계값 κ를 0.1~0.5 구간에서 5단계로 변동시키며, 하나의 모델을 제로샷으로 평가한다. RCDT는 평균 반환이 기존 Lagrangian 기반 오프라인 방법(BEQ‑Lag, COptiDICE 등)보다 12% 이상 향상되고, 비용 초과 비율도 30% 이하로 크게 감소한다. 특히 비용이 매우 엄격한 κ=0.1 상황에서도 반환 손실을 최소화하면서 제약을 만족하는 점이 두드러진다. Ablation 연구에서는 λ 자동 업데이트를 제거하면 비용 초과가 급증하고, 재가중치 없이 단순 라그랑주식 페널티만 사용할 경우 반환이 과도하게 보수적으로 감소함을 확인한다.

결론적으로 RCDT는 (1) 라그랑주식 듀얼 업데이트를 통한 비용 제약의 자동 조정, (2) 반환‑비용 커버리지를 고려한 트래젝터리 재가중치, (3) Q‑값 정규화를 통한 고품질 행동 강조라는 세 가지 설계 요소를 결합해, 조건부 시퀀스 모델링을 안전 강화학습에 효과적으로 적용한다는 점에서 의미가 크다. 향후 연구에서는 더 큰 규모의 사전학습된 트랜스포머와 멀티모달 비용 신호를 활용해 복합 제약을 다루는 방향으로 확장할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기