마인크래프트 인간 시연 대규모 데이터셋 MineRL

MineRL은 6가지 대표적인 마인크래프트 과제를 포함해 6천만 개 이상의 상태‑액션 쌍을 자동 주석 처리한 500시간 이상의 인간 시연 데이터를 제공한다. 공개 서버와 패킷‑레벨 기록 플러그인을 활용해 무한히 확장 가능한 수집 파이프라인을 구축했으며, 계층적 아이템 의존성, 장기 계획, 탐색 등 복합적인 RL 과제를 연구하기 위한 표준 벤치마크를 제시한다.

저자: William H. Guss, Br, on Houghton

마인크래프트 인간 시연 대규모 데이터셋 MineRL
본 논문은 표준 딥 강화학습(DRL)이 요구하는 수십억 단계의 샘플 비효율성을 극복하기 위한 대안으로, 인간 시연을 활용한 학습 방법을 대규모 데이터셋 형태로 제공한다는 목표를 제시한다. 이를 위해 저자들은 마인크래프트(Minecraft)라는 3차원 오픈월드 게임을 선택했으며, 이 환경이 가지고 있는 고유한 특성—블록 기반의 세계, 절차적 생성, 명확한 아이템 의존성 그래프, 그리고 플레이어가 스스로 정의하는 다중 하위 목표—을 상세히 설명한다. 이러한 특성은 인간이 자연스럽게 계층적 행동 구조를 형성하게 만들며, 이는 강화학습에서 옵션 학습이나 계층적 정책 학습을 연구하는 데 이상적인 시험대가 된다. 데이터 수집 인프라는 세 가지 핵심 구성요소로 이루어진다. 첫째, 공개 게임 서버와 전용 웹사이트를 운영해 IRB 동의를 받은 일반 플레이어들을 모집한다. 둘째, 클라이언트‑플러그인을 통해 플레이어와 서버 간의 모든 패킷을 실시간으로 기록·스트리밍한다. 패킷‑레벨 기록은 화면 캡처에 비해 완전한 상태 복원을 가능하게 하며, 시점, 조명, 그래픽 설정 등을 자유롭게 변경해 재시뮬레이션할 수 있다. 셋째, 기록된 패킷을 재전송해 자동으로 메타데이터(아이템 수집, 사망 횟수, 보상 등)를 주석 처리하는 파이프라인을 구축한다. 이 파이프라인은 새로운 과제 추가, 데이터 변형(조명 변화, 카메라 위치 변동, 노이즈 삽입) 등을 손쉽게 지원하도록 설계돼, 데이터셋의 지속적인 확장성을 보장한다. MineRL‑v0 데이터셋은 총 500시간 이상의 인간 시연을 포함하며, 6가지 독립적인 과제와 자유형 Survival 모드로 구성된다. 과제는 다음과 같다. 1. **Navigate**: 절차적으로 생성된 지형에서 지정된 목표 지점까지 이동하는 과제로, 희소 보상과 밀도 보상 두 가지 형태를 제공한다. 2. **TreeChop**: 숲 지역에서 나무를 베어 64개의 목재를 획득하는 과제로, 기본 자원 채집을 연습한다. 3. **ObtainIronPickaxe**, **ObtainDiamond**, **ObtainCookedMeat**, **ObtainBed**: 마인크래프트 아이템 트리의 핵심 아이템을 획득하도록 설계된 네 가지 과제로, 각각 철 곡괭이, 다이아몬드, 조리된 고기, 침대(색상별) 획득을 목표로 한다. 4. **Survival**: 전통적인 오픈 엔드형 게임 모드로, 플레이어가 스스로 목표를 설정하고 장기적인 생존 전략을 구사한다. 각 과제는 동일한 행동·관찰 공간을 공유한다. 관찰은 플레이어 시점의 RGB 프레임과 함께 인벤토리, 체력, 레벨, 현재 열려 있는 GUI 등 풍부한 비시각적 정보를 포함한다. 행동은 키보드 입력, 마우스 시점 변화, GUI 클릭, 채팅, 아이템 제작 등 모든 조작을 상세히 기록한다. 이러한 완전한 데이터는 기존 연구에서 흔히 생략되는 연속적인 조작 정보를 제공함으로써, 행동 복제와 정책 학습에 새로운 가능성을 연다. 데이터는 저해상도(64×64)와 중해상도(192×256) 두 버전으로 제공되며, 각각 130 GB와 734 GB 규모다. 각 상태‑액션 쌍은 H.264 압축 MP4 비디오와 JSON 형식의 메타데이터 파일로 저장되며, 특정 과제에 한해 Numpy .npz 파일 형태의 벡터화된 (state, action, reward) 튜플도 제공한다. 실험에서는 기존 DRL 알고리즘(DQN, A3C 등)이 MineRL‑v0에서 거의 학습되지 못함을 확인하였다. 이는 마인크래프트가 여전히 장기 의존성, 고차원 시각 입력, 복합 행동 공간 등으로 인해 샘플 효율성이 낮은 도전적인 환경임을 보여준다. 반면, 간단한 행동 모방(Imitation Learning) 기법을 적용했을 때는 인간 수준에 근접하거나 일부 과제에서 유의미한 성능 향상이 관찰되었다. 이는 인간 시연이 강화학습에 제공할 수 있는 강력한 사전 지식의 가치를 입증한다. 결론적으로, MineRL은 (1) 6천만 개 이상의 고품질 인간 시연, (2) 계층적·다양한 과제 설계, (3) 재현 가능하고 확장 가능한 수집 파이프라인이라는 세 축을 갖춘 최초의 공개 데이터셋이다. 이는 인간 시연 기반 강화학습, 계층적 정책 학습, 멀티모달 학습, 그리고 도메인 일반화 연구에 새로운 벤치마크와 실험 기반을 제공한다. 향후 연구자는 이 데이터셋을 활용해 샘플 효율성을 크게 개선하는 알고리즘을 개발하거나, 인간 행동의 구조적 특성을 분석해 보다 해석 가능한 에이전트를 설계할 수 있을 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기