과거의 불완전 데이터로 배우는 인컨텍스트 강화학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 서브옵티멀(비최적) 행동 데이터만을 이용해 사전학습된 트랜스포머를 새로운 강화학습 환경에 적용하는 인컨텍스트 강화학습(ICRL) 방법을 제안한다. 행동 데이터의 장점 함수를 추정해 가중치를 부여한 최대우도 학습으로 정책을 개선하는 Decision Importance Transformer(DIT)를 설계하고, 밴드잇 및 MDP 실험을 통해 기존 방법보다 우수함을 입증한다.

상세 분석

이 연구는 최근 주목받는 인컨텍스트 학습(In‑Context Learning) 개념을 강화학습에 확장한 ICRL 프레임워크를 기반으로 한다. 전통적인 오프라인 RL은 최적 정책이 수집한 데이터에 의존하거나, 행동 정책과 최적 정책 사이의 분포 이동을 완화하기 위해 보수적 정책 정규화 기법을 사용한다. 그러나 ICRL에서는 사전학습 단계에서 다양한 태스크의 트래젝터리를 모아 트랜스포머를 학습하고, 이후 전혀 보지 못한 새로운 환경에 바로 적용한다는 점에서 기존 오프라인 RL과 근본적으로 차별된다.

핵심 문제는 사전학습 데이터가 서브옵티멀 정책에 의해 생성된 경우, 단순히 행동을 모방(imitation)하는 방식이면 최적 정책에 도달할 수 없다는 것이다. 이를 해결하기 위해 DIT는 두 단계로 구성된다. 첫 번째 단계에서는 트랜스포머 기반 가치 함수(advantage estimator)를 학습해 각 트랜지션의 장점(A_b(s,a))을 추정한다. 여기서 장점은 행동 정책이 해당 행동을 선택했을 때 기대되는 누적 보상의 차이를 의미한다. 데이터가 여러 태스크에 섞여 있어 태스크 인덱스를 명시적으로 알 수 없을 때도, 트랜스포머의 자기‑주의 메커니즘을 활용해 컨텍스트 내에서 태스크를 암묵적으로 구분하고 장점을 추정한다.

두 번째 단계에서는 추정된 장점을 가중치로 활용해 가중 최대우도(WMLE) 손실을 최소한다. 구체적으로 각 (s,a) 쌍에 exp(A_b(s,a)/η) 라는 가중치를 부여하고, 이를 로그 확률에 곱해 정책 π(a|s;τ)를 학습한다. 이 과정은 행동 정책을 개선하는 중요도 샘플링(importance sampling)과 유사하지만, 트랜스포머가 모든 태스크에 대해 공유 파라미터를 사용하므로 다태스크 일반화가 가능하다. 논문은 이 목표 함수를 KL‑제한 정책 최적화 문제와 동등하게 변형할 수 있음을 정리하고, η 조절을 통해 보수적·공격적 업데이트 사이의 트레이드오프를 제어한다.

실험에서는 밴드잇 문제와 연속 제어 MDP(예: MuJoCo)에서 DIT를 평가한다. 서브옵티멀 데이터만을 사용했을 때 DIT는 Thompson Sampling 수준의 성능을 달성하고, 복잡한 MDP에서는 기존 Decision‑Pretrained Transformer(DPT)와 비슷하거나 더 나은 결과를 보인다. 특히 DPT가 최적 행동 라벨을 필요로 하는 반면, DIT는 라벨 없이도 거의 동일한 성능을 얻는 점이 큰 강점이다. 한계점으로는 장점 추정기의 정확도에 크게 의존한다는 점과, 매우 높은 차원의 연속 행동 공간에서 가중치가 과도하게 편향될 위험이 있다는 점을 언급한다.

과거의 불완전 데이터로 배우는 인컨텍스트 강화학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기