제한된 샘플을 위한 오프라인 강화학습 도메인 적응의 이론적 보장

제한된 샘플을 위한 오프라인 강화학습 도메인 적응의 이론적 보장
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

오프라인 강화학습에서 목표 데이터셋이 작을 때, 시뮬레이터 등으로부터 얻은 대규모 소스 데이터셋을 활용하는 도메인 적응 방법을 제안한다. 두 데이터셋을 가중합한 TD‑오차 최소화 문제를 정의하고, 가중치 λ에 대한 성능 상한·하한을 이론적으로 분석한다. 가정 하에 최적 λ를 폐쇄형으로 구할 수 있음을 보이며, 제안 알고리즘이 최적점 근처로 수렴한다는 수렴 보장을 제공한다. 실험은 Procgen·MuJo코 벤치마크에서 이론적 결과를 뒷받침한다.

상세 분석

본 논문은 오프라인 강화학습(Offline RL)에서 목표 데이터셋(타깃)의 샘플 수가 제한적일 때, 동일 혹은 유사한 환경에서 얻은 대규모 소스 데이터셋을 어떻게 효율적으로 활용할 것인가에 대한 근본적인 질문을 다룬다. 기존 연구들은 시뮬레이터와의 온라인 상호작용을 전제로 하거나, GAN 기반으로 타깃 상태 분포를 모방하는 방식으로 가중치를 경험적으로 조정했지만, 이들 방법은 이론적 최적성 보장이 없고, 소스와 타깃 간의 동역학 격차(dynamics gap)를 정량화하지 못한다.

논문은 먼저 MDP를 탭형으로 가정하고, 타깃 데이터셋 𝔻̂와 소스 데이터셋 𝔻′에 대해 각각 기대 TD‑오차 E_𝔻̂(Q)와 E_𝔻′(Q)를 정의한다. 핵심 아이디어는 두 오차를 λ∈


댓글 및 학술 토론

Loading comments...

의견 남기기