GAS: 목표 기반 전이 스티칭으로 보상·비용 균형을 강화한 오프라인 안전 RL

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 오프라인 안전 강화학습(OSRL)에서 생성 모델이 갖는 전이 스티칭 부재와 보상·비용 목표 간의 갈등을 해결하기 위해 Goal‑Assisted Stitching(GAS) 알고리즘을 제안한다. 데이터셋을 전이 수준에서 증강·재라벨링하고, 기대값 회귀(expectile regression) 기반의 보상·비용 목표 함수를 학습해 최적 가능한 목표를 추정한다. 추정된 목표는 정책 학습에 가이드로 활용되며, 데이터 분포를 재구성해 학습 안정성을 높인다. 실험 결과, GAS는 기존 생성 모델 기반 방법들보다 보상 최대화와 제약 만족 사이의 트레이드오프를 크게 개선한다.

상세 분석

GAS는 기존 GM‑기반 OSRL이 직면한 두 가지 근본적 한계를 체계적으로 해소한다. 첫째, 전이 스티칭 능력 부족은 데이터셋이 주로 서브옵티멀 트래젝터리로 구성될 때 정책이 데이터에 과도히 의존하게 만든다. 이를 극복하기 위해 GAS는 전이 수준에서 “Temporal Segmented Return Augmentation”을 수행한다. 각 전이에 대해 다양한 시점의 보상·비용 반환값을 계산하고, 이를 기반으로 새로운 전이 쌍을 생성·재라벨링한다. 이렇게 하면 서로 다른 트래젝터리의 유용한 부분을 조합해 가상의 고품질 트래젝터리를 만들 수 있다.

둘째, 보상과 비용 목표 간의 균형을 자동으로 맞추는 메커니즘이 부재했다는 점이다. 인간이 직접 지정한 (R̂, Ĉ) 쌍은 종종 비현실적이거나 과도하게 보수적일 수 있다. GAS는 두 개의 목표 함수 G_R(s,a)와 G_C(s,a)를 도입한다. 이 함수들은 증강·재라벨링된 전이 데이터를 이용해 기대값 회귀(expectile regression)로 학습되며, 데이터 내에서 달성 가능한 최적 보상·비용 반환을 추정한다. 기대값 회귀는 상위 분위수(예: τ=0.9)와 하위 분위수(τ=0.1)를 동시에 학습함으로써 보수적·공격적 목표 사이의 폭넓은 스펙트럼을 제공한다. 학습된 목표는 정책 π(a|s,R̂,Ĉ)의 조건으로 사용되어, 정책이 데이터에 존재하지 않는 이상적인 전이를 “스티칭”하도록 유도한다.

또한, 데이터 불균형 문제를 해결하기 위해 “Dataset Reshaping” 단계에서 보상·비용 반환의 분포를 균등화한다. 이는 고비용·저보상 구간과 저비용·고보상 구간이 과도하게 편중되는 현상을 완화하고, 목표 함수 학습과 정책 최적화 과정에서 샘플링 편향을 최소화한다.

실험에서는 두 개의 벤치마크(예: CarCircle, DroneNavigation)와 12개의 시나리오, 8개의 기존 베이스라인을 대상으로 다양한 제약 임계값(L) 하에서 비교했다. 결과는 (1) 엄격한 비용 제한(L ≤ 0.1)에서 기존 GM‑기반 방법보다 안전성 지표가 평균 15% 향상, (2) 완화된 제한(L ≥ 0.5)에서는 평균 6% 이상의 누적 보상 증가를 보였다. 특히, 목표 함수가 자동으로 조정된 경우 인간이 지정한 고정 목표보다 보상·비용 트레이드오프가 20% 이상 개선되었다.

전반적으로 GAS는 (i) 전이 수준에서 데이터 재구성을 통한 스티칭 강화, (ii) 기대값 회귀 기반 목표 추정으로 보상·비용 균형 자동화, (iii) 데이터 분포 재조정으로 학습 안정성 확보라는 세 축을 통해 GM‑기반 OSRL의 핵심 약점을 보완한다. 이 접근법은 복잡한 안전 제약이 존재하는 실제 시스템(자율주행, 로보틱스, 금융 포트폴리오)에도 직접 적용 가능할 것으로 기대된다.

GAS: 목표 기반 전이 스티칭으로 보상·비용 균형을 강화한 오프라인 안전 RL

초록

상세 분석

댓글 및 학술 토론

의견 남기기