브릿지V2W: 로봇 행동을 픽셀 마스크로 변환해 비디오 생성 모델과 연결

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

BridgeV2W는 로봇 URDF와 카메라 파라미터를 이용해 좌표공간 행동을 픽셀 정렬 마스크로 변환하고, 이를 ControlNet 방식으로 사전학습된 비디오 생성 모델에 주입한다. 마스크 기반 조건화는 행동‑비디오 간 격차를 해소하고, 카메라 시점 변화에 강인하며, 단일·이중 팔 로봇 모두에 통합된 아키텍처를 제공한다. 또한 광류 기반 모션 손실을 도입해 정적 배경에 대한 과적합을 방지하고, 동적 영역 학습을 강조한다. 실험 결과 DROID와 AgiBot‑G1 데이터셋에서 기존 최첨단 방법보다 영상 품질이 크게 향상되었으며, 정책 평가와 목표‑조건 플래닝 같은 실제 로봇 과제에서도 유용함을 입증한다.

상세 분석

BridgeV2W는 기존 임베디드 월드 모델이 안고 있던 세 가지 핵심 한계를 체계적으로 해결한다. 첫째, 행동‑비디오 격차(Action‑Video Gap) 문제는 좌표공간(예: 3‑D 포즈, 관절 각도)과 픽셀공간(비디오 프레임) 사이의 차원 불일치에서 비롯된다. 논문은 URDF와 카메라 내·외부 파라미터를 활용해 각 행동을 해당 시점의 픽셀 마스크로 렌더링함으로써, 행동 정보를 직접 픽셀 레벨에 매핑한다. 이 마스크는 로봇의 형태와 움직임을 정확히 반영하므로, 사전학습된 비디오 생성 모델이 이미 학습한 시각·동작 프라이어와 자연스럽게 결합된다.

둘째, 시점 민감도(Viewpoint Sensitivity)는 좌표 기반 행동이 카메라 위치에 따라 크게 변동하는 점에서 발생한다. 픽셀 마스크는 카메라 파라미터에 의해 투영되므로, 동일한 물리적 행동이라도 다른 시점에서 동일한 마스크 형태를 유지한다. 따라서 ControlNet‑style 조건화가 시점 정보를 내재화해, 미보인 카메라 각도에서도 일관된 영상 예측이 가능해진다.

셋째, 비통합 아키텍처(Non‑Unified Architecture) 문제는 로봇 종류마다 별도 행동 인코더가 필요하다는 점이다. 마스크는 로봇 종류와 자유도에 무관하게 픽셀 형태만을 제공하므로, 하나의 비디오 생성 백본과 ControlNet 모듈만으로 단일·이중 팔 모두를 처리할 수 있다. 이는 지식 전이와 모델 재사용성을 크게 높인다.

기술적 구현 측면에서 BridgeV2W는 3D VAE‑encoded latent 공간에 마스크 latent을 삽입하고, zero‑initialized Conv 레이어를 통해 DiT( Diffusion Transformer ) 백본에 additive fusion한다. 이는 사전학습된 비디오 생성 모델의 파라미터를 크게 변형시키지 않으면서, 마스크 신호를 점진적으로 학습하게 만든다.

또한, 기존 프레임‑레벨 L2 손실은 정적 배경까지 동일하게 복원하려는 경향이 있어 로봇 작업에 불필요한 오버피팅을 초래한다. 논문은 사전학습된 RAFT 옵티컬 플로우 네트워크를 이용해 예측 영상과 실제 영상 사이의 흐름 차이를 측정하고, 방향(코사인)과 크기(Huber) 손실을 결합한 L_flow를 도입한다. 이 손실은 움직이는 영역—즉, 로봇 본체와 조작 대상—에만 강하게 작용해, 동적 패턴 학습을 촉진하고 정적 배경에 대한 과도한 압력을 완화한다.

실험에서는 DROID(단일 팔)와 AgiBot‑G1(이중 팔) 두 데이터셋을 사용해, 미보인 시점·장면에서의 비디오 품질을 SSIM, PSNR, FVD 등으로 평가했다. BridgeV2W는 기존 Action‑Conditioned Video Diffusion, Video‑World‑Model 등과 비교해 평균 2‑3dB PSNR 향상과 15% 이상 FVD 감소를 기록했다. 정책 평가 실험에서는 예측된 영상의 성공률이 실제 로봇 실행 성공률과 높은 상관관계(r≈0.85)를 보였으며, 목표‑조건 플래닝에서는 70% 이상의 성공률을 달성해, 시뮬레이션 기반 모델이 실제 로봇 제어에 충분히 활용 가능함을 증명했다.

전체적으로 BridgeV2W는 행동‑비디오 정렬, 시점 강인성, 아키텍처 통합이라는 세 가지 핵심 문제를 마스크 기반 조건화와 흐름 손실이라는 두 가지 핵심 메커니즘으로 해결한다. 이는 대규모 인터넷 비디오 사전학습 모델을 로봇 월드 모델에 직접 적용할 수 있는 실용적인 경로를 제시하며, 향후 로봇 학습·시뮬레이션·플래닝 분야에 큰 파급 효과를 기대한다.

브릿지V2W: 로봇 행동을 픽셀 마스크로 변환해 비디오 생성 모델과 연결

초록

상세 분석

댓글 및 학술 토론

의견 남기기