ConsisDrive: 운전 영상 생성용 인스턴스 마스크 기반 정체성 보존 세계 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ConsisDrive는 운전 시뮬레이션 영상을 생성할 때 객체의 정체성이 시간에 따라 변하는 “identity drift” 문제를 해결한다. 핵심은 (1) 인스턴스 마스크를 활용한 Attention으로 토큰이 동일 객체에만 집중하도록 제한하고, (2) 전경에 가중치를 두는 인스턴스 마스크 손실(IML)로 학습 시 배경 노이즈를 억제한다. nuScenes 데이터셋에서 FID·FVD를 크게 개선했으며, downstream 인식·추적·플래닝 태스크에서도 실세계 데이터에 근접한 성능을 보인다.

상세 분석

ConsisDrive는 기존 diffusion 기반 운전 세계 모델이 겪는 정체성 드리프트를 근본적으로 막기 위해 두 가지 구조적 장치를 도입한다. 첫 번째인 Instance‑Masked Attention(IMA)은 3D 전체 Attention 단계에 인스턴스 아이덴티티 마스크와 트래젝터리 마스크를 삽입한다. 아이덴티티 마스크는 각 시각 토큰이 자신이 속한 객체의 ID와 겹치는 영역에만 어텐션을 허용하고, 트래젝터리 마스크는 동일 객체가 시간축을 따라 이어지는 토큰들 간의 상호작용만을 허용한다. 이를 위해 3D 바운딩 박스를 카메라 파라미터(K,R,T)와 함께 투영하고, rasterization 후 trilinear interpolation을 통해 latent space 마스크(˜BM_i)를 만든다. 토큰‑to‑Instance 지시 함수 I(v_k) = {i | ˜BM_i(t,x,y)=1}를 정의해 마스크 행렬 M을 구성하고, SA_mask(

ConsisDrive: 운전 영상 생성용 인스턴스 마스크 기반 정체성 보존 세계 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기