DreamDojo: 인간 영상으로 학습한 범용 로봇 월드 모델
초록
DreamDojo는 44,000시간 규모의 인간 시점 egocentric 영상을 활용해 로봇용 세계 모델을 사전학습한다. 행동 라벨이 부족한 문제를 연속 잠재 행동(latent action)이라는 통합 프록시로 해결하고, 소규모 로봇 데이터로 후학습(post‑training)한 뒤 지식 증류(distillation)로 실시간(10.81 FPS) 예측을 구현한다. 물리 이해, 정밀 제어, 라이브 텔레오퍼레이션, 정책 평가·계획 등 다양한 downstream 작업에서 OOD 벤치마크를 넘어선 성능을 보이며, 일반화 가능한 로봇 월드 모델의 가능성을 제시한다.
상세 분석
DreamDojo 논문은 로봇 제어를 위한 세계 모델(World Model) 연구의 두 가지 난관—데이터 스케일과 행동 라벨 부족—을 동시에 해결하려는 시도다. 첫 번째로, 저자들은 44 k시간에 달하는 인간 egocentric 영상 데이터셋(DreamDojo‑HV)을 구축했다. 이 데이터는 기존 로봇 데이터셋에 비해 15배 이상의 총 길이, 96배 이상의 스킬 종류, 2 000배 이상의 장면 다양성을 제공한다. 인간 영상이 로봇과 물리적 상호작용을 공유한다는 ‘embodiment gap’은 존재하지만, 물리 법칙은 동일하므로 지식 전이가 가능하다는 가정이 핵심이다.
두 번째 난관인 행동 라벨 부재를 해결하기 위해 연속 잠재 행동(latent action)이라는 통합 프록시를 도입했다. 이는 비지도 방식으로 프레임 간 변화를 압축한 잠재 벡터를 행동으로 해석한다. 모델은 이 잠재 행동을 “액션 인코더‑디코더” 구조로 학습해, 서로 다른 데이터셋(인‑랩, EgoDex, DreamDojo‑HV) 간 행동을 정렬하고, 로봇 관절의 절대값이 아닌 상대적(relative) 행동을 사용해 차원 축소와 일반화를 촉진한다. 또한, 행동을 4프레임 단위(잠재 토큰 압축 비율)로 청크화해 시계열 인과관계를 명확히 함으로써, 미래 행동이 현재 예측에 미치는 잡음을 최소화한다.
아키텍처는 기존 비디오 생성 모델인 Cosmos‑Predict2.5 위에 구축되었으며, 텍스트와 타임스텝 정보를 DiT 블록에 주입한다. 흐름 매칭(loss) 기반의 훈련으로 픽셀 수준의 움직임을 정밀히 복원한다. 사전학습 후, 목표 로봇(예: GR‑1) 데이터에 맞춰 액션 조건화 레이어만 재설정하고 소규모 파인튜닝을 수행한다. 이 단계에서 로봇 고유의 관절·센서 특성을 학습하면서도, 인간 영상에서 얻은 물리 지식은 그대로 유지된다.
실시간성을 확보하기 위해 Self‑Forcing 기반의 지식 증류 파이프라인을 설계했다. 대규모 사전학습 모델을 “teacher”로 두고, 경량 “student”가 동일한 입력에 대해 10.81 FPS(640×480)로 자동 회귀 예측하도록 학습한다. 증류 과정에서 짧은 컨텍스트(예: 4‑8프레임)를 집중적으로 모델링해 장기 일관성을 강화한다.
평가에서는 다양한 OOD 시나리오(새 객체, 새로운 장면, 복합 접촉 작업 등)에서 zero‑shot 성능을 검증했다. 물리 시뮬레이션 정확도, 행동 재현성, 그리고 정책 평가 시 시뮬레이션‑실제 격차를 크게 줄였다. 특히, 라이브 텔레오퍼레이션 실험에서 인간 연산자와 로봇이 동일한 영상 피드백을 공유하며, 모델이 실시간으로 미래 프레임을 예측해 제어 명령을 보정하는 모습을 보였다.
핵심 기여는 (1) 규모와 다양성에서 사전학습 데이터셋을 앞선 ‘DreamDojo‑HV’, (2) 연속 잠재 행동을 통한 라벨‑프리 행동 학습 프레임워크, (3) 실시간 증류 파이프라인, (4) 광범위한 downstream 적용 사례이다. 이 연구는 인간 일상 영상을 로봇 세계 모델에 활용함으로써, 데이터 수집 비용을 크게 낮추고, 일반화 가능한 로봇 지능을 구현하는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기