리턴 증강 결정 변환기로 오프다이내믹 강화학습 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

오프라인 데이터와 서로 다른 동역학을 가진 소스·타깃 환경에서, 반환값을 정렬하는 REAG 기법을 적용해 Decision Transformer 기반 정책을 학습한다. 이 방법은 반환값을 변환해 소스 데이터의 분포를 타깃과 맞추어 동역학 차이를 완화하고, 이론적 보증과 실험을 통해 성능 향상을 입증한다.

상세 분석

본 논문은 오프라인 오프다이내믹 강화학습(off‑dynamics RL) 문제를 Return‑Conditioned Supervised Learning(RCSL) 관점에서 재조명한다. 기존 DP 기반 방법은 보상 보강을 통해 소스와 타깃 궤적 분포를 맞추지만, DT와 같은 RCSL 정책은 반환값(return‑to‑go)에 직접 의존하므로 동일한 접근이 불가능했다. 저자들은 이를 해결하기 위해 Return Augmented(REAG) 프레임워크를 제안한다. 핵심 아이디어는 소스 데이터의 반환값 g(τ)을 변환 함수 ψ에 의해 조정해, 변환된 반환값 ψ(g(τ))가 타깃 환경의 반환값 분포와 일치하도록 하는 것이다. 두 구현이 제시된다. 첫 번째 REAGDara는 Eysenbach 등(2020)의 동역학‑인식 보상 보강을 차용해, 소스·타깃 전이 확률 차이를 로그 확률비 ∆r(s,a,s′) 로 추정하고, 이를 반환값에 누적해 ψ를 정의한다. 이를 위해 소스·타깃 전이 데이터를 구분하는 이진 분류기 qₛₐ와 qₛₛ를 학습한다. 두 번째 REAGMV는 반환값 자체의 통계적 매칭을 목표로, 소스와 타깃 반환값의 평균·분산을 맞추는 선형 변환 ψ(g)=α·g+β 를 직접 학습한다. 이론적으로 저자들은 동일한 데이터 커버리지 가정 하에, REAG을 적용한 RCSL 정책이 동역학 차이가 없을 때와 동일한 서브옵티멀리티 경계를 만족함을 증명한다. 실험에서는 D4RL 벤치마크의 여러 변형 동역학 환경에서 DT, Reinformer, QT 등 다양한 DT‑type 모델에 REAGDara와 REAGMV를 적용했으며, 특히 REAG*MV가 가장 큰 성능 향상을 보였다. 또한, 소스 데이터가 타깃보다 크게 많을 때 보강 효과가 두드러짐을 확인했다. 전체적으로 REAG은 반환값을 매개로 동역학 차이를 보정함으로써, RCSL 기반 오프라인 정책 학습에 새로운 전이 학습 패러다임을 제공한다.

리턴 증강 결정 변환기로 오프다이내믹 강화학습 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기