마스크‑LLaVA: 객체 마스크와 다중 레벨 토큰으로 효율적인 비전‑언어 모델 구현

마스크‑LLaVA: 객체 마스크와 다중 레벨 토큰으로 효율적인 비전‑언어 모델 구현
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Mask‑LLaVA는 이미지의 전역 CLS 토큰, 풀링된 패치 토큰, 그리고 자동 생성된 객체 마스크 토큰을 결합해 시각‑언어 모델의 입력 토큰 수를 크게 줄인다. 학습 시 모든 토큰을 사용하지만, 추론 단계에서 객체 토큰을 동적으로 제거해도 성능 저하가 거의 없으며, 기존 LLaVA 대비 75% 적은 토큰으로 경쟁력 있는 결과를 얻는다.

상세 분석

본 논문은 현재 autoregressive VLM이 이미지당 수백 개의 패치 토큰을 사용함으로써 발생하는 연산 비용 문제를 해결하고자, 토큰 레벨을 세 가지 계층으로 다층화한다. 첫 번째는 ViT의


댓글 및 학술 토론

Loading comments...

의견 남기기