딥 가우시안 프로세스를 이용한 역강화학습
본 논문은 제한된 시연 데이터만으로 복잡한 보상 구조를 학습할 수 있는 새로운 역강화학습(IRL) 방법을 제안한다. 딥 가우시안 프로세스(DGP)를 다층 구조로 쌓아 상태 특징 공간을 추상화하고, 이를 최대 엔트로피 IRL 프레임워크와 결합한다. 기존 DGP 추론 방법이 비선형 IRL 엔진 때문에 적용되지 못하는 문제를 해결하기 위해, 특수한 변분 근사법을 개발하여 베이지안 학습을 가능하게 하였다. 실험 결과, 제안 모델은 기존 최첨단 방법들을…
저자: Ming Jin, Andreas Damianou, Pieter Abbeel
본 논문은 역강화학습(IRL) 분야에서 보상 함수를 추정하기 위해 사전 정의된 특징에 크게 의존하는 기존 방법들의 한계를 극복하고자, 딥 가우시안 프로세스(Deep Gaussian Process, DGP)를 기반으로 한 새로운 모델을 제안한다.
1. **배경 및 문제점**
- 전통적인 IRL은 보상 함수를 선형 결합 형태로 가정하거나, 비선형성을 도입하기 위해 복잡한 커널이나 논리 결합을 사용한다. 그러나 이러한 접근법은 특징 설계에 크게 의존하며, 데이터가 부족할 경우 과적합 위험이 있다.
- 최근 Gaussian Process IRL(GPIRL)은 비선형 보상 함수를 비파라메트릭하게 모델링했지만, 여전히 고정된 특징 행렬 X 에 의존한다.
2. **제안 모델: DGP‑IRL**
- **구조**: 두 개의 GP 층으로 구성된다. 첫 번째 GP는 원시 상태 특징 X (차원 m₀)를 잠재 특징 B (차원 m₁)로 변환한다. 두 번째 GP는 B 를 보상 r (각 상태에 대한 실수값)으로 매핑한다. 각 층은 가우시안 노이즈를 포함해 불확실성을 전달한다.
- **IRL 엔진**: 보상 r 은 최대 엔트로피 IRL(MaxEnt) 모델을 통해 시연 데이터 M 과 연결된다. 즉, 정책 π 은 r 에 의해 정의된 Q‑값과 가치 V 을 이용해 확률적 행동 선택을 하며, 시연의 로그 가능도는 ∑ₕₜ
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기