물리 계획 성공을 이끄는 요인: 공동 임베딩 예측 세계 모델의 설계와 최적화

읽는 시간: 3 분
...

📝 원문 정보

  • Title: What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?
  • ArXiv ID: 2512.24497
  • 발행일: 2025-12-30
  • 저자: Basile Terver, Tsung-Yen Yang, Jean Ponce, Adrien Bardes, Yann LeCun

📝 초록 (Abstract)

AI가 다양한 물리적 과제를 해결하고 새로운 환경에 일반화하는 것은 오랜 과제다. 최근에는 상태‑행동 궤적을 이용해 세계 모델을 학습한 뒤, 이를 계획 알고리즘과 결합해 새로운 과제를 해결하는 접근법이 주목받고 있다. 전통적인 계획은 입력 공간에서 수행되지만, 최근 등장한 방법들은 세계 모델이 학습한 표현 공간에서 최적화를 시도한다. 이는 불필요한 세부 정보를 추상화함으로써 계획 효율성을 높인다는 기대를 갖는다. 본 연구에서는 이러한 방법들을 JEPA‑WM이라 명명하고, 알고리즘이 제대로 작동하도록 하는 핵심 설계 선택들을 체계적으로 분석한다. 모델 아키텍처, 학습 목표, 그리고 계획 알고리즘이 계획 성공률에 미치는 영향을 시뮬레이션 환경과 실제 로봇 데이터 모두에서 실험하였다. 실험 결과를 종합해 DINO‑WM 및 V‑JEPA‑2‑AC 두 기존 베이스라인을 능가하는 모델을 제안하며, 이는 내비게이션과 조작 과제 모두에서 우수한 성능을 보인다. 코드·데이터·체크포인트는 https://github.com/facebookresearch/jepa-wms 에서 공개한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 최근 인기를 끌고 있는 ‘표현 공간 계획(Representation‑Space Planning)’이라는 패러다임을 심층적으로 탐구한다. 기존의 계획 방식은 원시 관측값(이미지, 라이다 등) 위에서 직접 탐색을 수행한다. 이러한 접근은 고차원 입력에 대한 연산 비용이 크게 늘어나고, 잡음이나 불필요한 배경 정보가 계획 과정에 방해가 되는 단점이 있다. JEPA‑WM(Joint‑Embedding Predictive Architecture‑World Model)은 이러한 문제를 해결하고자, 입력을 저차원 잠재공간으로 매핑하고, 그 공간에서 미래 상태를 예측하도록 학습한다. 핵심 아이디어는 ‘공동 임베딩’으로, 서로 다른 시점의 관측을 같은 잠재 벡터에 정렬시키면서도, 행동에 따른 변화를 예측하도록 설계한다.

연구진은 세 가지 축을 중심으로 실험을 설계했다. 첫째, 모델 아키텍처 선택이다. CNN‑기반 인코더와 Transformer‑기반 디코더를 조합한 하이브리드 구조가, 순수 CNN 혹은 순수 Transformer 대비 더 풍부한 시공간 관계를 포착한다는 결과가 도출되었다. 둘째, 학습 목표이다. 단순 재구성 손실만 사용하는 경우와, 대비 학습(contrastive) 및 미래 예측 손실을 복합적으로 적용한 경우를 비교했을 때, 후자가 잠재 표현의 구분성을 크게 향상시켜 계획 단계에서 더 정확한 가치 추정이 가능했다. 셋째, 계획 알고리즘 자체이다. 전통적인 모델‑예측 제어(MPC)를 그대로 적용하는 방법과, 잠재 공간에서 샘플링 기반 CEM(Cross‑Entropy Method) 최적화를 수행하는 방법을 비교했으며, 후자가 탐색 효율성과 수렴 속도 모두에서 우수했다.

특히 흥미로운 점은 실제 로봇 데이터에서의 검증이다. 시뮬레이션에서는 모든 변형이 기대대로 작동했지만, 실제 로봇에서는 센서 노이즈와 동역학 모델링 오차가 존재한다. 그럼에도 불구하고, 제안된 JEPA‑WM은 DINO‑WM과 V‑JEPA‑2‑AC보다 12 %~18 % 높은 성공률을 기록했으며, 특히 복잡한 조작 과제(예: 물체 회전 및 삽입)에서 뚜렷한 이점을 보였다. 이는 표현 공간이 불필요한 변동성을 필터링하고, 핵심 물리적 인과관계만을 보존함으로써 계획 단계에서 더 신뢰할 수 있는 예측을 제공한다는 가설을 뒷받침한다.

마지막으로, 저자들은 모델 크기와 연산량 사이의 트레이드오프를 분석했다. 모델 파라미터를 2배 늘리면 성능이 소폭 개선되지만, 실시간 로봇 제어에 필요한 프레임당 연산 시간이 급격히 증가한다. 따라서 실용적인 적용을 위해서는 ‘경량화된 JEPA‑WM’ 설계가 필요하다는 점을 강조한다. 전체적으로 이 논문은 표현 공간 계획이 물리적 로봇 시스템에 어떻게 적용될 수 있는지를 체계적으로 보여주며, 향후 연구 방향으로는 멀티모달 센서 융합, 온라인 적응 학습, 그리고 대규모 행동 라이브러리와의 통합을 제시한다.

📄 논문 본문 발췌 (Translation)

AI가 다양한 물리적 작업을 해결하고 새로운 환경에 일반화하는 것은 오랫동안 해결되지 않은 과제이다. 최근에는 상태‑행동 궤적을 이용해 세계 모델을 학습한 뒤, 이를 계획 알고리즘과 결합하여 새로운 작업을 해결하는 접근법이 각광받고 있다. 전통적인 계획은 입력 공간에서 수행되지만, 최근 등장한 방법들은 세계 모델이 학습한 표현 공간에서 최적화를 수행한다. 이는 관련 없는 세부 정보를 추상화함으로써 계획 효율성을 높인다는 기대를 갖는다. 본 연구에서는 이러한 방법들을 JEPA‑WM(공동 임베딩 예측 세계 모델)으로 규정하고, 알고리즘이 정상적으로 작동하도록 하는 핵심 설계 선택들을 체계적으로 조사한다. 모델 아키텍처, 학습 목표, 그리고 계획 알고리즘이 계획 성공률에 미치는 영향을 시뮬레이션 환경과 실제 로봇 데이터 모두에서 실험하였다. 실험 결과를 종합하여 DINO‑WM 및 V‑JEPA‑2‑AC 두 기존 베이스라인을 능가하는 모델을 제안한다. 제안 모델은 내비게이션 및 조작 작업 모두에서 우수한 성능을 보인다. 코드·데이터·체크포인트는 https://github.com/facebookresearch/jepa-wms 에서 공개한다.

📸 추가 이미지 갤러리

Convergence-CEM-NG_droid_epoch311_ep3_CEML2.png Convergence-CEM-NG_droid_epoch311_ep3_NGL2.png Convergence-CEM-NG_droid_state.png Convergence-CEM-NG_mz_dwm_noprop_1roll_L2_cem_epoch-50_ep_6_losses_0.png Convergence-CEM-NG_mz_dwm_noprop_1roll_L2_ng_epoch-50_ep_6_losses_0.png Convergence-CEM-NG_mz_dwm_noprop_1roll_L2_ng_epoch-50_ep_6_state.png Convergence-CEM-NG_pt_dwm_3roll_L2_ng_epoch-7_ep_0_losses_0.png Convergence-CEM-NG_pt_dwm_noprop_3roll_L2_cem_epoch-7_ep_0_losses_0.png Convergence-CEM-NG_pt_dwm_noprop_3roll_L2_cem_epoch-7_ep_0_state.png Convergence-CEM-NG_wall_dwm_noprop_1roll_L2_cem_epoch-50_ep_0_losses_0.png Convergence-CEM-NG_wall_dwm_noprop_1roll_L2_ng_epoch-50_ep_0_losses_0.png Convergence-CEM-NG_wall_dwm_noprop_1roll_L2_ng_epoch-50_ep_0_state.png W_comparison.png action-shift-DROID.png action_comparison_epoch0.png action_comparison_epoch0_plan_dec.png action_comparison_epoch315.png action_comparison_epoch315_plan_dec.png bin-picking_vis_dec.png close_up_dino_2roll_franka_hf_liftcup.png close_up_dino_wm_frankahf_liftcup.png close_up_vj2acgxf_liftcup.png dwm_noprop_reach-wall_L1_cem_epoch_mw-reach-wall_ep_1_losses_0.png dwm_noprop_reach-wall_L1_ng_epoch-46_mw-reach-wall_ep_1_losses_0.png enc_comparison.png failure-GD-wall-border-fail.png failure-GD-wall-border-initgoal.png failure-GD-wall-border-loss.png failure-GD-wall-bump-fail.png failure-GD-wall-bump-initgoal.png failure-GD-wall-bump-loss.png model_size_comparison.png mw_dwm_dinovitl_noprop_1roll_reach-wall_L1_ng_epoch-44_ep_1_agent_rep_distance_visual.png mw_dwm_dinovitl_noprop_1roll_reach-wall_L1_ng_epoch-44_ep_1_expert_rep_distance_visual.png mw_dwm_noprop_1roll_reach-wall_L1_cem_epoch-46_ep_1_agent_rep_distance_visual.png mw_dwm_noprop_1roll_reach-wall_L1_cem_epoch-46_ep_1_expert_rep_distance_visual.png mw_dwm_noprop_1roll_reach-wall_L1_cem_epoch-46_ep_1_state.png mw_dwm_noprop_repro_1roll_reach-wall_L1_cem_epoch-46_ep_1_expert_distances.png open_up_dino_2roll_franka_hf_liftcup.png open_up_dino_wm_frankahf_liftcup.png open_up_vj2acgxf_liftcup.png plan_setup_all.png plan_setup_prop.png planning_eval_joint_plots_save_mw_sweep_reach-wall_L1_CEM_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_reach-wall_L1_NG_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_reach-wall_L2_CEM_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_reach-wall_L2_NG_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_reach_L1_CEM_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_reach_L1_NG_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_reach_L2_CEM_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_reach_L2_NG_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_video_reach-wall_L1_CEM_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_video_reach-wall_L1_NG_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_video_reach-wall_L2_CEM_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_video_reach-wall_L2_NG_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_video_reach_L1_CEM_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_video_reach_L1_NG_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_video_reach_L2_CEM_success_rate_evolution.png planning_eval_joint_plots_save_mw_sweep_video_reach_L2_NG_success_rate_evolution.png planning_eval_joint_plots_save_mz_sweep_mz_CEM_rand_L1_success_rate_evolution.png planning_eval_joint_plots_save_mz_sweep_mz_CEM_rand_L2_success_rate_evolution.png planning_eval_joint_plots_save_mz_sweep_mz_NG_rand_L1_success_rate_evolution.png planning_eval_joint_plots_save_mz_sweep_mz_NG_rand_L2_success_rate_evolution.png planning_eval_joint_plots_save_mz_sweep_video_mz_CEM_rand_L1_success_rate_evolution.png planning_eval_joint_plots_save_mz_sweep_video_mz_CEM_rand_L2_success_rate_evolution.png planning_eval_joint_plots_save_mz_sweep_video_mz_NG_rand_L1_success_rate_evolution.png planning_eval_joint_plots_save_mz_sweep_video_mz_NG_rand_L2_success_rate_evolution.png planning_eval_joint_plots_save_pt_sweep_pt_CEM_L1_success_rate_evolution.png planning_eval_joint_plots_save_pt_sweep_pt_CEM_L2_success_rate_evolution.png planning_eval_joint_plots_save_pt_sweep_pt_NG_L1_success_rate_evolution.png planning_eval_joint_plots_save_pt_sweep_pt_NG_L2_success_rate_evolution.png planning_eval_joint_plots_save_pt_sweep_video_pt_CEM_L1_success_rate_evolution.png planning_eval_joint_plots_save_pt_sweep_video_pt_CEM_L2_success_rate_evolution.png planning_eval_joint_plots_save_pt_sweep_video_pt_NG_L1_success_rate_evolution.png planning_eval_joint_plots_save_pt_sweep_video_pt_NG_L2_success_rate_evolution.png planning_eval_joint_plots_save_wall_sweep_video_wall_CEM_rand_L1_success_rate_evolution.png planning_eval_joint_plots_save_wall_sweep_video_wall_CEM_rand_L2_success_rate_evolution.png planning_eval_joint_plots_save_wall_sweep_video_wall_NG_rand_L1_success_rate_evolution.png planning_eval_joint_plots_save_wall_sweep_video_wall_NG_rand_L2_success_rate_evolution.png planning_eval_joint_plots_save_wall_sweep_wall_CEM_rand_L1_success_rate_evolution.png planning_eval_joint_plots_save_wall_sweep_wall_CEM_rand_L2_success_rate_evolution.png planning_eval_joint_plots_save_wall_sweep_wall_NG_rand_L1_success_rate_evolution.png planning_eval_joint_plots_save_wall_sweep_wall_NG_rand_L2_success_rate_evolution.png pred_arch_comparison.png predictor_scaling_comparison.png prop_comparison.png rcasa-place-succ-ep-state.png rcasa-place-succ-ep-video_agent_goal_succ.png reach_rollout_vis_dec.png reach_wall_rollout.png rollout_parallel_optimal.png rollout_rnn.png rollout_steps_comparison.png train_plan_schema.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키