긴‑단기 상상으로 여는 오픈월드 강화학습
초록
LS‑Imagine은 짧은 시뮬레이션에 머무르는 기존 모델 기반 RL의 한계를 넘어, 제한된 전이 단계 안에서 ‘긴‑단기’ 세계 모델을 학습한다. 목표‑조건 점프 전이와 이미지 확대를 통한 어포던스 맵을 이용해 장기 가치를 직접 추정하고, 이를 내재 보상에 결합해 탐색 효율을 크게 향상시킨다. MineDojo의 다양한 마인크래프트 과제에서 최첨단 방법들을 능가한다.
상세 분석
본 논문은 고차원 시각 입력을 갖는 오픈월드 환경에서 샘플 효율성을 높이기 위한 새로운 모델 기반 강화학습 프레임워크 LS‑Imagine을 제안한다. 핵심 아이디어는 ‘긴‑단기 세계 모델(long short‑term world model)’을 구축하여, 전통적인 1‑step 혹은 짧은 horizon(≈15 step) 상상에 머무르는 대신, 제한된 전이(step) 수 안에서 목표‑조건 점프(jumpy) 전이를 시뮬레이션한다는 점이다. 이를 위해 저자는 두 가지 전이 브랜치를 설계했으며, 짧은 전이는 기존 DreamerV3와 유사하게 연속적인 1‑step 예측을 수행하고, 긴 전이는 이미지 내 특정 영역을 확대(zoom‑in)하여 가상의 16‑frame 비디오 클립을 생성한다. 이 비디오와 텍스트 목표를 MineCLIP 모델에 입력해 상관관계를 측정함으로써 어포던스 맵(affordance map)을 만든다. 어포던스 맵은 각 픽셀의 목표 관련성을 정량화한 공간적 prior이며, 이를 기반으로 새로운 내재 보상 r_intr = ∑ M·G (여기서 G는 중심에 피크를 둔 2D Gaussian) 를 정의한다. 이 보상은 장기적인 목표 도달 가능성을 미리 평가하도록 설계돼, 에이전트가 목표가 시야에 들어올 때 즉시 ‘점프’ 전이를 선택하도록 유도한다. 점프 전이 여부는 어포던스 맵의 kurtosis 기반 확률 P_jump = sigmoid(K_r)·K_a 로 계산되며, 동적 임계값을 초과하면 점프 플래그 j_t 가 활성화된다.
학습 파이프라인은 크게 (1) 어포던스 맵 계산, (2) 멀티모달 U‑Net을 이용한 빠른 어포던스 맵 예측, (3) 짧은·긴 전이 데이터를 포함한 세계 모델 학습, (4) 혼합된 상상 시퀀스를 이용한 actor‑critic 정책 최적화, (5) 환경 상호작용을 통한 데이터 갱신의 순환으로 구성된다. 특히 단계 2에서는 실제 이미지와 텍스트를 입력으로 받아 실시간 어포던스 맵을 생성하도록 사전 학습된 U‑Net을 활용해 계산 비용을 크게 절감한다.
실험은 Minecraft 기반 오픈월드 벤치마크인 MineDojo에서 수행되었으며, ‘나무 베기’, ‘동굴 탐험’ 등 다양한 목표 지시문에 대해 LS‑Imagine은 기존 모델‑프리 방법(PPO‑with‑MineCLIP, DECKARD)과 최신 모델‑베이스 방법(DreamerV3, VPT 등)을 크게 앞선 성공률과 샘플 효율성을 보였다. 특히 긴‑단기 상상을 활용한 정책은 목표가 멀리 있을 때도 빠르게 접근 경로를 예측해 탐색 비용을 감소시켰다.
한계점으로는 어포던스 맵을 생성하기 위한 초기 랜덤 탐색 단계가 필요하고, 점프 전이의 성공 여부가 어포던스 맵 품질에 크게 의존한다는 점이다. 또한 현재 구현은 Minecraft와 같은 블록 기반 시각에 최적화돼 있어, 연속적인 물리 기반 환경으로의 일반화는 추가 연구가 필요하다.
이러한 기여는 (i) 긴‑단기 전이 브랜치를 갖는 세계 모델 설계, (ii) 이미지 확대 기반 어포던스 맵 생성 방법, (iii) 어포던스‑구동 내재 보상 설계, (iv) 혼합 상상 경로를 이용한 행동 학습이라는 네 가지 핵심 요소로 정리될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기