스케일러블 인컨텍스트 Q 러닝: 동적 계획과 세계 모델링으로 강화학습 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
S‑ICQL은 프롬프트 기반 멀티헤드 트랜스포머와 사전 학습된 세계 모델을 결합해, 인컨텍스트 강화학습에서 동적 계획을 도입하고 가치 함수와 정책을 동시에 학습한다. 경량 프롬프트는 환경 역학을 압축해 전달하고, 상위 기대값(expectile) 기반 상태 가치 추정과 어드밴티지 가중 회귀를 통해 서브옵티멀 데이터에서도 효율적인 정책 개선이 가능함을 보인다. 실험은 이산·연속 제어 환경 전반에 걸쳐 기존 AD·DPT 기반 방법들을 크게 앞선다.
상세 분석
S‑ICQL은 기존 인컨텍스트 강화학습(AD, DPT)에서 나타나는 두 가지 근본적 한계를 극복한다. 첫째, 단순히 행동 데이터를 프롬프트로 사용하면 긴 히스토리와 중복 토큰이 필요하고, 서브옵티멀 궤적을 그대로 모방하게 된다. 둘째, 정책 학습이 가치 함수와 분리되지 않아 동적 계획의 “스티칭(stitching)” 효과를 활용하지 못한다. 이를 해결하기 위해 저자는 (1) 세계 모델을 사전 학습시켜 상태‑행동‑보상 전이 확률 p(s′,r|s,a)를 정확히 추정하고, (2) 이 모델을 이용해 소수의 전이만으로도 환경의 핵심 역학을 압축한 경량 프롬프트 β를 생성한다. 프롬프트는 트랜스포머 입력에 삽입돼, 멀티헤드 구조에서 정책 헤드와 가치 헤드가 각각 πθ(a|s;β)와 V̂θ(s;β)를 독립적으로 예측한다.
학습 단계에서는 Q‑함수 Qθ(s,a)에 대한 기대값을 직접 최적화하기보다, Q값의 상위 기대값(expectile) τ∈(0,1) 를 사용해 상태 가치 V̂θ(s)≈Expτ
댓글 및 학술 토론
Loading comments...
의견 남기기