오프라인 안전 모방 학습, 비선호 궤적로 안전 추론

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

OSIL은 보상·안전 비용 라벨이 없는 오프라인 데이터에서, 안전하지 않은(비선호) 궤적을 활용해 비용 모델을 학습하고, 이를 CMDP의 제약으로 변환해 안전하면서도 높은 보상을 얻는 정책을 학습한다.

상세 분석

본 논문은 실세계 로봇·자율주행 등 위험한 환경에서 온라인 탐색이 불가능하거나 비용이 큰 상황을 겨냥해, 오프라인 데이터만으로 안전 제약을 만족하는 모방 학습 프레임워크를 제안한다. 핵심 아이디어는 “비선호 궤적”(high‑return이지만 높은 안전 비용을 가진 데이터)과 “union 궤적”(다양한 안전 비용을 가진 고수익 데이터)을 구분하고, 비선호 궤적을 통해 안전 비용을 추정하는 모델을 학습한다는 점이다.

CMDP 재구성: 전통적인 CMDP는 즉시 보상 r(s,a)와 비용 c_i(s,a)를 필요로 하지만, OSIL은 이들 라벨이 전혀 없는 상황을 가정한다. 대신, 비용 함수를 파라미터화된 모델 ˜c = g∘f 로 정의하고, 이 모델이 “비선호” 상태‑행동 쌍일 확률을 출력하도록 설계한다.
비용 모델 학습:
- 대조 학습(L_cont_cost): 동일 궤적 내의 인접 state‑action 쌍이 잠재 공간에서 가깝게 매핑되도록 인코더 f를 학습한다. 이는 시간적 연속성을 보존해 안전 신호를 추출하는 데 기여한다.
- 선호 기반 학습(L_pref_cost): Bradley‑Terry 모델을 이용해 비선호 궤적이 union 궤적보다 높은 총 비용을 갖도록 학습한다. 손실은 BCE 형태이며, 비선호 궤적이 실제로 비용이 높다는 “하드 라벨” 가정을 사용하지만, 실험에서는 평균적으로 이 가정이 충분히 타당함을 확인한다.
- 두 손실을 합산해 최종 비용 모델 L_cost = L_cont_cost + L_pref_cost 로 최적화한다.
비용 행동‑가치 함수(Q_π˜c) 학습: 학습된 ˜c를 즉시 비용으로 사용해 TD‑error 기반의 손실(L_value)로 Q‑함수를 근사한다. 여기서 정책 π는 현재 학습 중인 정책이며, 목표 네트워크 Q_π−˜c 는 Polyak 평균으로 안정화한다.
정책 최적화: 비용 제약을 만족하면서 보상 목표를 최대화하기 위해 라그랑주 승수법을 적용한다. 라그랑주 승수 λ는 적응적으로 업데이트되어, 비용 위반이 감지될 때는 벌점이 강화되고, 반대로 비용이 충분히 낮을 경우에는 보상 최적화에 더 집중한다. 이 과정은 “보상에 대한 하한”(lower bound) 을 이용해 실제 보상 라벨이 없어도 정책의 성능을 보장한다.
비교 및 실험: 기존 오프라인 안전 IL 방법인 SafeDICE와 Preference‑based Policy Learning(PPL) 계열을 베이스라인으로 삼아, 다양한 로봇‑네비게이션·속도‑제한 환경에서 1M 학습 스텝 후 평균 보상과 비용 위반율을 측정한다. OSIL은 비용 위반을 크게 감소시키면서도 보상 성능은 거의 동일하거나 약간 향상되는 결과를 보였다. 특히, union 데이터가 저·고 비용을 혼합한 현실적인 분포를 가질 때, SafeDICE가 가정 위반으로 실패하는 반면 OSIL은 가정 없이 안정적으로 학습한다.

핵심 기여는 (1) 비선호 궤적만으로 비용 모델을 추정하는 새로운 대조‑선호 혼합 학습 방식, (2) 보상 라벨이 없어도 정책의 보상 하한을 이용해 안전 제약을 만족하는 CMDP 해법, (3) 실험을 통해 기존 방법 대비 비용 효율성과 보상 유지에서 우수함을 입증한 점이다. 이 접근법은 라벨링 비용이 높은 도메인(자율주행, 의료 로봇 등)에서 안전 정책을 빠르게 배포할 수 있는 실용적 길을 제시한다.

오프라인 안전 모방 학습, 비선호 궤적로 안전 추론

초록

상세 분석

댓글 및 학술 토론

의견 남기기