오프라인 선호 기반 강화학습 고샘플 효율성
초록
LEASE는 제한된 인간 선호 라벨을 활용해 오프라인 강화학습의 샘플 효율성을 크게 높이는 방법이다. 학습된 전이 모델로 무라벨 트래젝터리를 생성하고, 앙상블 보상 모델의 불확실성을 이용해 고신뢰·저분산 데이터만 선택해 보상 모델을 업데이트한다. 이론적으로 보상 모델의 일반화 경계와 상태‑액션 기반 정책 개선 보장을 제공하며, D4RL 벤치마크에서 적은 선호 데이터만으로도 기존 오프라인 PbRL 방법과 동등한 성능을 달성한다.
상세 분석
LEASE는 기존 오프라인 선호 기반 강화학습(PbRL)이 직면한 두 가지 핵심 문제—인간 피드백 비용과 제한된 라벨 데이터로 인한 보상 모델 불안정성을 동시에 해결한다. 첫 번째로, 논문은 모델 기반 RL의 전이 모델 학습을 차용해 오프라인 데이터셋만으로 환경 다이내믹스를 추정한다. 이 전이 모델은 실제 환경과의 상호작용 없이도 다양한 상태‑액션 시퀀스를 생성할 수 있어, 라벨이 없는 선호 데이터의 양을 크게 늘린다. 두 번째로, 생성된 무라벨 트래젝터리에 대해 사전 학습된 보상 모델이 pseudo‑label을 부여하지만, 이 과정에서 오류가 발생할 위험이 있다. 이를 방지하기 위해 LEASE는 보상 모델을 앙상블화하고, 각 샘플에 대한 예측 평균과 분산을 계산한다. 평균이 높은 경우(고신뢰)와 분산이 낮은 경우(저불확실성)만을 선택해 학습에 사용함으로써, 노이즈 라벨이 정책에 미치는 부정적 영향을 최소화한다.
이론적 기여는 두 가지 측면에서 두드러진다. 첫째, 보상 모델에 대한 일반화 경계를 상태‑액션 쌍 수준에서 도출한다. 이 경계는 데이터 분포, 모델 복잡도, 라벨 노이즈 수준 등에 대한 명시적 의존성을 제시해, 어떤 조건에서 보상 모델이 실제 보상 함수에 근접할 수 있는지를 정량화한다. 둘째, 이러한 보상 모델의 정확도가 정책 개선에 미치는 영향을 분석해, 보상 오차가 일정 이하일 때 정책의 기대 반환이 보장된다는 정리를 제시한다. 이는 기존 연구가 트래젝터리 전체에 대한 분석에 머물렀던 점을 넘어, 오프라인 RL에서 흔히 사용되는 상태‑액션 기반 가치 함수와 직접 연결한다는 점에서 의미가 크다.
실험에서는 D4RL의 연속 제어 태스크(예: HalfCheetah, Walker2d 등)를 사용해, 제한된 선호 라벨(전체 라벨의 10% 수준)만으로도 OPAL, PT, OPPO 등 최신 오프라인 PbRL 방법과 동등하거나 더 나은 성능을 달성함을 보여준다. 특히, 전이 모델을 통한 데이터 증강과 불확실성 기반 샘플 선택이 결합될 때 성능 향상이 가장 크게 나타났으며, 학습 시간도 기존 방법보다 현저히 짧았다. 전체적으로 LEASE는 라벨 비용을 크게 절감하면서도 이론적 안전성을 확보한 실용적인 오프라인 PbRL 프레임워크로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기