ARROW 지속 학습을 위한 메모리 효율적 세계 모델 재생
초록
ARROW는 DreamerV3 기반의 모델 기반 지속 강화학습 알고리즘으로, 짧은‑기간 FIFO 버퍼와 장기‑기간 전역 분포 매칭 버퍼를 결합한 메모리 효율적인 재생 메커니즘을 제안한다. Atari와 Procgen CoinRun에서 기존 모델‑프리와 모델‑베이스 방법보다 기억 상실을 크게 감소시키면서도 전이 성능을 유지한다.
상세 분석
본 논문은 지속 강화학습(CRL)에서 발생하는 ‘catastrophic forgetting’ 문제를 모델 기반 접근법과 신경과학적 영감으로 해결하고자 한다. 기존의 모델‑프리 방법들은 대규모 재생 버퍼에 의존해 메모리 요구량이 급증하는 반면, ARROW는 두 개의 보완적 버퍼를 도입한다. 첫 번째인 단기 FIFO 버퍼(D₁)는 최신 경험을 2¹⁸개의 관측치 수준으로 저장해 현재 작업에 대한 빠른 적응성을 제공한다. 두 번째인 장기 전역 분포 매칭 버퍼(D₂)는 동일 용량이지만, ‘reservoir sampling’ 기반의 키‑우선순위 큐를 사용해 전체 작업군의 다양성을 보존한다. 이 설계는 제한된 메모리(2¹⁹ 관측치) 안에서 전역 데이터 분포를 근사함으로써, 작업 간 데이터 편향을 최소화하고 모델의 일반화 능력을 향상시킨다.
ARROW는 DreamerV3의 RSSM(Recurrent State‑Space Model)을 그대로 활용한다. RSSM은 결정적 숨겨진 상태 hₜ와 확률적 잠재 상태 zₜ를 결합해 시계열 데이터를 압축하고, KL‑balancing을 통해 학습 안정성을 확보한다. 모델은 실제 경험과 ‘dreamed’(상상) 트래젝터리를 모두 사용해 정책(Actor)과 가치(Critic)를 학습한다. 여기서 중요한 점은 상상 트래젝터리가 실제 환경 상호작용을 크게 감소시켜, 연속적인 작업 전환 시 데이터 효율성을 높인다는 것이다.
버퍼 설계와 관련해 저자들은 ‘spliced rollouts’를 도입한다. 전체 에피소드를 512‑step 청크로 나누어 저장함으로써, 작은 버퍼에서도 충분한 다양성을 확보하고, D₂가 과도하게 특정 작업에 편향되는 것을 방지한다. 또한, 작업‑무관 탐색을 위해 DreamerV3와 동일한 고정 엔트로피 정규화와 사전 정의된 보상 스케일을 적용해, 새로운 작업에 대한 초기 정책이 과도히 보수적이 되지 않도록 조정한다.
실험은 두 가지 연속 학습 시나리오에서 수행된다. 첫 번째는 구조가 전혀 공유되지 않는 Atari 6종 게임이며, 두 번째는 Procgen CoinRun을 기반으로 시각·동작 변형을 단계적으로 추가한 6가지 변형이다. 각각에 대해 기본 순서, 역순, 그리고 두 사이클(재학습) 설정을 사용해 기억 상실, 전방·후방 전이, 그리고 교차 사이클 성능을 정량화한다. 평가 지표는 평균 보상, ACC/Min‑ACC, 워크로드‑가중 ACC, 그리고 Kessler et al.이 제안한 ‘forgetting’과 ‘forward transfer’를 포함한다.
결과는 다음과 같다. 동일 메모리(2¹⁹ 관측치) 조건에서 ARROW는 Atari 환경에서 기존 모델‑프리 CLEAR와 DreamerV3 대비 평균 forgetting을 약 30 % 이상 감소시켰으며, 전방 전이 점수는 크게 손실되지 않았다. CoinRun에서는 구조적 공유가 존재함에도 불구하고, ARROW가 장기 버퍼를 통해 작업 간 공통 특성을 효과적으로 보존함으로써, 전방 전이와 후방 전이 모두에서 경쟁력 있는 성능을 보였다. 특히 두 사이클 실험에서 작업이 재방문될 때 급격한 성능 회복을 관찰했으며, 이는 D₂가 이전 작업의 핵심 데이터를 유지하고 있음을 시사한다.
기술적 기여는 크게 세 가지로 요약된다. ① 모델 기반 CRL에 적합한 메모리‑효율적 재생 구조(D₁ + D₂) 제안, ② 전역 분포 매칭을 위한 reservoir‑sampling 기반 장기 버퍼 설계, ③ 제한된 메모리에서도 안정적인 세계 모델 학습을 가능하게 하는 spliced‑rollout 기법. 이러한 설계는 기존 FIFO‑only 버퍼가 직면한 메모리·스케일링 한계를 극복하고, 모델‑프리 방법에 비해 샘플 효율성을 유지한다는 점에서 의미가 크다. 향후 연구는 (1) 작업 식별자를 활용한 동적 버퍼 비율 조정, (2) 탐색 전략(Plan2Explore 등)과의 통합, (3) 더 복잡한 연속 로봇 제어 환경으로의 확장을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기