동적 추론 건너뛰기로 세계 모델 가속화
초록
DISK는 훈련 없이 적용 가능한 적응형 추론 기법으로, 비디오와 자율주행 차량의 궤적을 예측하는 두 개의 확산 트랜스포머를 동기화한다. 각 디퓨전 단계에서 계산 여부를 판단해 불필요한 연산을 건너뛰고, 안전 게이트를 통해 복잡한 움직임 시에는 양쪽 모두 계산하도록 강제한다. NuPlan·NuScenes 데이터셋에서 영상‑궤적 디퓨전 각각 1.6배·2배 속도 향상을 달성하면서 L2 플래닝 오차, FID/FVD, NAVSIM PDMS 등 품질 지표를 유지한다.
상세 분석
DISK는 기존 세계 모델 파이프라인에 별도 학습 없이 삽입 가능한 “플러그‑앤‑플레이” 방식의 추론 가속기이다. 핵심 아이디어는 두 개의 확산 트랜스포머(비전 DiT와 궤적 DiT) 각각에 짧은 히스토리를 유지하는 스킵 컨트롤러를 두고, 현재 디퓨전 단계에서의 변화량(d)와 2차 차분(Δ)을 이용해 로컬 평활성을 평가한다. Δ가 사전 정의된 임계값 θ·dₖ₊₁ 이하이면 해당 단계는 ‘skip’으로 판단하고, 이전에 캐시된 노이즈 예측을 재사용한다. 이때 캐시된 값은 Ψ(업데이트 연산)에 그대로 삽입되어 연산량을 크게 줄인다.
안전성 보장을 위해 세 가지 가드가 적용된다. 첫째, 초기 W 단계는 무조건 compute를 수행해 초기 캐시를 확보한다. 둘째, 연속 스킵 횟수가 Cₘₐₓ을 초과하면 강제 compute를 수행한다. 셋째, 변화량 d가 ε 이하로 거의 0에 수렴하면 스킵을 중단한다. 이러한 가드들은 스킵이 과도해져 모델이 정체되거나 발산하는 상황을 방지한다.
특히 DISK는 두 브랜치를 단방향으로 결합한다. 궤적 컨트롤러가 안전 신호 σₜ(k)=1을 발생시키면(예: 복잡한 차선 변경, 연속 스킵 제한 초과, 스톨) 비전 컨트롤러에게도 compute를 강제한다. 반대로 비전 컨트롤러가 compute를 요구해도 궤적 브랜치는 스킵될 수 있어, 비디오 디퓨전이 일반적으로 더 무거운 연산임에도 전체 지연을 최소화한다. 이 설계는 “appearance‑motion consistency”를 유지하면서도 불필요한 비디오 연산을 크게 절감한다.
컨트롤러 통계는 각 rollout 단계 s에서 요약(sᵥ, sₜ)으로 정리되어 다음 단계에 전달된다. 여기에는 현재까지의 compute/skip 비율, 안전 트리거 비율(ρ) 등이 포함된다. 이러한 메타 정보를 활용해 다음 단계의 스킵 임계값을 동적으로 조정함으로써, 이전 단계에서 어려운 상황이 있었을 경우 스킵을 보수적으로 적용하고, 반대로 안정적인 구간에서는 더 aggressive하게 스킵한다. 결과적으로 장기 롤아웃 시 누적 오류를 억제하면서도 평균 연산량을 크게 감소시킨다.
실험은 NVIDIA L40S GPU에서 NuPlan·NuScenes 각각 1500개의 시나리오에 대해 수행되었다. 궤적 디퓨전은 평균 20 ms에서 10 ms로 2배 가속, 비전 디퓨전은 244 ms에서 155 ms로 1.6배 가속을 달성했다. 품질 측면에서는 L2 플래닝 오차 변화가 미미하고, FID 12.5, FVD 88.1 등 시각적 품질 지표가 기존 모델과 거의 동일했다. NAVSIM PDMS 점수와 충돌 비율 역시 유지되어, 실시간 자율주행 시스템에 적용 가능한 수준임을 입증했다.
DISK는 기존의 훈련 기반 가속기(예: consistency model, distillation)와 달리 모델 파라미터를 전혀 변경하지 않으며, 복잡도에 따라 단계별 연산을 조절하는 “adaptive inference” 접근법을 제시한다. 이는 특히 다양한 도로 상황(고속도로 직진 vs. 교차로 급제동)에서 연산 효율을 최적화하고, 배터리·전력 제약이 있는 차량에 실용적인 이점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기