깊이 인코딩 궤적을 로봇 시연 비디오로 변환하는 DRAW2ACT

깊이 인코딩 궤적을 로봇 시연 비디오로 변환하는 DRAW2ACT
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DRAW2ACT는 3D 깊이 정보를 포함한 궤적을 다중 표현으로 변환해 영상 확산 모델에 주입하고, RGB와 깊이 영상을 동시에 생성한다. 교차‑모달 어텐션과 깊이 감독을 통해 시공간 일관성을 높이며, 생성된 영상으로부터 로봇 관절 각도를 회귀하는 멀티모달 정책 모델까지 제공한다. 실험 결과, 기존 2D 궤적 기반 방법보다 시각적 품질과 작업 성공률 모두에서 우수함을 입증한다.

상세 분석

DRAW2ACT는 로봇 조작 시연 영상을 생성하기 위해 세 가지 핵심 기술을 결합한다. 첫째, 입력 궤적을 “깊이‑인코딩 3D 궤적”, “객체‑레벨 DINOv2 특징”, “픽셀‑좌표 보강 텍스트 프롬프트”라는 상호 보완적인 세 표현으로 변환한다. 깊이‑인코딩 궤적은 Video Depth Anything 모델을 이용해 프레임별 상대 깊이를 추정하고, 2D 좌표와 결합해 (x, y, d) 형태의 시퀀스를 만든다. 이는 로봇 팔의 3차원 움직임을 직접 제어할 수 있게 하며, 기존 2D 기반 방법이 겪는 가려짐·재가려짐 문제를 완화한다. 둘째, DINOv2를 활용해 초기 프레임에서 조작 대상 객체의 고차원 의미 정보를 추출하고, 이를 궤적에 따라 시간·공간적으로 배치한다. 이렇게 만든 y_dino 특징 맵은 DiT( Diffusion Transformer) 내부에 특수 Fusion Block을 통해 게이팅·정규화 후 잔차 연결 방식으로 주입된다. 이는 객체의 형태·재질·시맨틱을 영상 생성 과정에 지속적으로 제공해, 물체‑팔 상호작용의 일관성을 크게 향상시킨다. 셋째, RGB와 깊이 영상을 동시에 생성한다는 멀티모달 설계이다. 두 모달리티를 시간 차원에서 연속적으로 연결해 하나의 긴 시퀀스로 처리함으로써 별도의 임베딩 레이어를 필요 없게 하고, 자기‑어텐션을 통해 공간적·시공간적 상관관계를 공동 학습한다. 깊이 영상은 깊이 supervision loss와 함께 학습돼, RGB 프레임의 기하학적 정확성을 보강한다.

정책 모델 측면에서 DRAW2ACT는 생성된 RGB·깊이 시퀀스를 각각 VAE‑인코딩한 뒤, 공간 트랜스포머와 시간 트랜스포머를 거쳐 교차‑어텐션으로 결합한다. 최종적으로 ResNet 디코더가 로봇의 관절 각도와 그리퍼 상태를 회귀한다. 이 구조는 시각적 피드백과 깊이 정보를 동시에 활용해, 실제 로봇 제어 시 발생할 수 있는 시점‑오프셋 오류를 감소시킨다.

실험에서는 Bridge V2, Berkeley Autolab 등 실제 로봇 데이터와 시뮬레이션 벤치마크를 사용해 비교하였다. 평가 지표는 영상 품질(모션 일관성, 배경 일관성, 주관적 일관성)과 작업 성공률을 포함한다. DRAW2ACT는 기존 LevIT, TORA, MotionCtrl 대비 모든 지표에서 우수한 성능을 보였으며, 특히 깊이 감독을 도입한 덕분에 물체‑팔 간 충돌·접촉 오류가 현저히 감소했다. Ablation study에서는 각 구성 요소(깊이 궤적, DINOv2 특징, 텍스트 보강)의 기여도를 분석했으며, 모든 요소를 결합했을 때 가장 높은 성공률과 영상 일관성을 달성함을 확인했다.

전반적으로 DRAW2ACT는 로봇 조작 시연 영상 생성에 필요한 3D 공간 제어와 객체 의미 정보를 효과적으로 통합함으로써, 기존 2D 기반 방법의 한계를 뛰어넘는 새로운 패러다임을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기