지연 인지를 활용한 실시간 로봇 내비게이션 모델 TIC‑VLA
초록
TIC‑VLA는 언어‑시각‑행동(VLA) 모델에 추론 지연을 명시적으로 반영하여, 지연된 의미 정보를 현재 제어 루프에 결합한다. 지연‑의미‑제어 인터페이스와 지연‑일관 학습 파이프라인을 도입하고, 현실감 있는 DynaNav 시뮬레이터를 구축해 동적 환경에서의 언어‑조건 내비게이션을 평가한다.
상세 분석
본 논문은 로봇이 인간‑중심 동적 환경에서 자연어 명령을 실시간으로 수행해야 하는 문제를 “추론 지연”이라는 근본적인 제약으로 접근한다. 기존 VLA 모델은 고성능 VLM(대규모 비전‑언어 모델)의 추론을 즉시 사용한다고 가정하지만, 실제 로봇에서는 GPU 메모리·연산 한계로 인해 수초 수준의 지연이 발생한다. TIC‑VLA는 이러한 지연을 시스템 변수 Δt 로 명시화하고, 두 가지 핵심 설계 요소를 제시한다. 첫째, 지연 의미‑제어 인터페이스는 VLM이 t‑Δt 시점의 이미지 시퀀스와 명령을 처리해 얻은 KV‑캐시(키‑밸류)와 함께, 지연 시간 Δt 및 그 동안의 로봇 이동량 Δp (Δx, Δy, Δθ)를 액션 정책에 제공한다. 정책 πθ는 현재 RGB 프레임 xₜ, 로봇 상태 sₜ, 그리고 지연된 의미 상태 Sₜ₋Δt 와 메타데이터를 입력으로 받아, 단기 행동 시퀀스 {a₁,…,a_T}를 출력한다. 이렇게 하면 정책이 “과거 의미 정보를 현재 상황에 맞게 재해석”하도록 학습된다. 둘째, 지연‑일관 학습 파이프라인은 모방 학습 단계와 강화 학습 단계 모두에서 인위적으로 Δt 를 삽입한다. 즉, 데이터 수집 시점에서 VLM 추론을 지연시켜 정책이 실제 배포 시와 동일한 비동기 입력을 경험하도록 만든다. 이 과정은 정책이 지연 변동성에 강인해지게 하며, 실시간 제어 주파수(>10 Hz)를 유지하면서도 의미 정보 활용을 극대화한다.
아키텍처는 Transformer 기반 액션 쿼리 토큰이 시각 토큰·VLM KV‑캐시·로봇 상태·지연 메타데이터에 교차‑주의(attention)하는 구조이며, MLP 레이어를 통해 최종 연속 제어 명령을 생성한다. 또한, 논문은 물리‑정확하고 포토리얼리스틱한 DynaNav 시뮬레이터를 제공한다. DynaNav은 동적 인간 에이전트, 복잡한 조명·재질, 그리고 실제 로봇의 동역학을 재현해, 지연‑인식 정책의 성능을 정량·정성적으로 평가한다. 실험 결과, TIC‑VLA는 기존 VLA 모델 대비 성공률 12 %↑, 경로 효율성 15 %↑, 그리고 2‑3 초 지연 상황에서도 안정적인 제어를 유지한다. 실제 로봇(휠형 및 다리형)에 적용했을 때도 시뮬레이션과 일관된 향상을 보이며, 지연이 큰 환경에서도 “생각‑제어” 간 격차를 효과적으로 메우는 것을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기