스케일러블 오프라인 모델 기반 강화학습 액션 청크

초록

본 논문은 오프라인 강화학습에서 모델 기반 가치 확장을 활용할 때, 장기 예측 오류를 완화하기 위해 액션 청크(여러 연속 행동을 하나의 단위로 예측) 모델을 도입한다. 행동 청크를 이용한 동적 모델은 누적 오차를 줄이고, 행동 청크 정책을 통한 거부 샘플링은 OOD 행동에 대한 모델 남용을 방지한다. 대규모 데이터셋(최대 1억 트랜지션)에서 실험한 결과, 제안된 MAC 방법이 기존 오프라인 모델 기반 RL보다 특히 장기 horizon 과제에서 우수한 성능을 보였다.

상세 요약

이 논문은 오프라인 강화학습(Offline RL)에서 모델 기반 가치 확장(Model-Based Value Expansion, MVE)의 한계를 정확히 짚어낸다. 전통적인 MVE는 현재 정책과 학습된 전이 모델을 이용해 길이 n의 가상 롤아웃을 생성하고, 이를 통해 부트스트랩된 가치 함수를 학습한다. n이 커질수록 실제 보상에 대한 편향은 감소하지만, 전이 모델의 누적 오차가 기하급수적으로 증가해 장기 예측의 신뢰성을 해친다. 저자들은 이 트레이드오프를 해결하기 위해 “액션 청크”라는 새로운 모델링 패러다임을 제시한다. 액션 청크는 연속된 k개의 행동을 하나의 입력으로 받아, 해당 청크가 적용된 뒤의 상태를 직접 예측한다. 이렇게 하면 매 타임스텝마다 모델이 수행해야 하는 예측 횟수가 1/k 로 감소하고, 각 청크 내부에서 발생하는 오차가 외부에 전파되는 횟수가 줄어들어 누적 오류가 크게 억제된다.

또한, 정책 학습 단계에서 발생할 수 있는 “모델 착취”(model exploitation) 문제를 방지하기 위해, 저자들은 행동 청크 정책을 사전 학습한 뒤, 이 정책으로부터 샘플링된 행동 청크를 거부 샘플링(rejection sampling) 방식으로 선택한다. 즉, 모델이 예측한 상태-행동 쌍이 행동 청크 정책의 확률 분포에서 충분히 높은 확률을 갖는 경우에만 사용한다. 이 메커니즘은 데이터 분포 밖의 행동이 모델에 의해 과도하게 평가되는 것을 차단하고, 오프라인 데이터의 행동 분포와 일관된 정책을 유지하게 만든다.

실험 설계는 두 가지 축을 중심으로 진행된다. 첫째, 대규모 오프라인 데이터셋(최대 100M 트랜지션)에서 MAC이 기존 오프라인 모델 기반 알고리즘(예: MOPO, MBOP) 대비 얼마나 성능이 향상되는지를 평가한다. 둘째, 장기 horizon이 요구되는 복합 작업(예: 로봇 조작, 복합 게임 시나리오)에서 액션 청크 길이(k)와 가치 확장 길이(n)의 상호작용을 분석한다. 결과는 청크 길이가 5~~10 정도일 때 가장 큰 성능 향상이 관찰되며, n을 5~~15 정도로 늘려도 모델 오차가 크게 증가하지 않음을 보여준다. 이는 액션 청크가 모델 기반 가치 확장의 “bias‑variance” 트레이드오프를 효과적으로 완화한다는 강력한 증거다.

또한, 거부 샘플링을 적용하지 않은 경우, 모델이 학습되지 않은 행동 영역을 과대평가해 정책이 급격히 성능 저하를 겪는 현상이 재현되었다. 반면, 제안된 거부 샘플링을 도입하면 정책이 데이터 분포 내에서 안정적으로 수렴하고, 특히 데이터가 희소하거나 노이즈가 많은 상황에서도 견고함을 유지한다.

이 논문의 주요 기여는 다음과 같다. 1) 액션 청크 기반 전이 모델을 도입해 장기 롤아웃 시 모델 오차를 구조적으로 감소시켰다. 2) 행동 청크 정책과 거부 샘플링을 결합해 모델 착취를 방지하고, 오프라인 데이터와의 일관성을 보장했다. 3) 대규모 실험을 통해 MAC이 기존 오프라인 모델 기반 RL보다 특히 장기 horizon 과제에서 일관된 우수성을 입증했다. 이러한 접근은 향후 복잡하고 데이터가 풍부한 실제 환경에서 오프라인 RL을 적용하는 데 중요한 설계 원칙을 제공한다.

초록

상세 요약

📜 논문 원문 (영문)