동영상 MLLM을 위한 공간 정밀도와 시간 일관성 강화: SPARROW
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
SPARROW는 영상 기반 멀티모달 대형 언어 모델에 공간적 정확도와 시간적 일관성을 동시에 부여하는 프레임워크이다. 핵심은 (i) 목표‑특화 추적 특징(TSF)로 시간에 맞춰 객체 정보를 정렬하고, (ii)
상세 분석
SPARROW는 기존 비디오 MLLM이 정적
댓글 및 학술 토론
Loading comments...
의견 남기기