지나 VLM 2.4B 파라미터 멀티모달 모델의 최신 성능

읽는 시간: 3 분
...

📝 원문 정보

  • Title: Jina-VLM: Small Multilingual Vision Language Model
  • ArXiv ID: 2512.04032
  • 발행일: 2025-12-03
  • 저자: Andreas Koukounas, Georgios Mastrapas, Florian Hönicke, Sedigheh Eslami, Guillaume Roncari, Scott Martens, Han Xiao

📝 초록 (Abstract)

우리는 2.4 억 파라미터 규모의 비전‑언어 모델인 jina‑vlm을 발표한다. 이 모델은 SigLIP2 비전 인코더와 Qwen3 언어 백본을 어텐션‑풀링 커넥터로 연결하여 임의 해상도의 이미지를 토큰 효율적으로 처리한다. jina‑vlm은 공개된 2 B 규모 VLM 중 다국어 시각 질문 응답(VQA)에서 최첨단 성능을 기록했으며, 표준 VQA 벤치마크와 다국어 평가에서 선도적인 결과를 보인다. 텍스트 전용 성능도 경쟁력을 유지한다. 모델 가중치와 코드는 https://huggingface.co/jinaai/jina‑vlm 에서 공개한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
jina‑vlm은 현재 멀티모달 학습 분야에서 가장 큰 과제 중 하나인 “고해상도 이미지와 다국어 텍스트를 동시에 효율적으로 처리”하는 문제를 혁신적으로 해결한다. 먼저 비전 인코더로 채택된 SigLIP2는 대규모 이미지‑텍스트 쌍을 사전 학습한 뒤, 이미지 특징을 고차원 공간에 매핑하는 데 강점을 가진다. 기존 ViT 기반 인코더와 달리, SigLIP2는 이미지 패치와 텍스트 토큰 사이의 교차‑어텐션을 최소화하면서도 풍부한 시각 정보를 보존한다.

언어 백본으로 사용된 Qwen3는 2 B 규모의 대형 언어 모델로, 다국어 이해와 생성 능력이 뛰어나며, 특히 비영어권 데이터에 대한 사전 학습이 강화되어 있다. Qwen3와 SigLIP2를 연결하는 핵심 모듈은 “어텐션‑풀링 커넥터”이다. 이 커넥터는 이미지 피처를 고정된 수의 토큰으로 압축하면서도, 각 토큰이 이미지 전체 영역에 대한 전역적인 컨텍스트를 반영하도록 설계되었다. 결과적으로 모델은 이미지 해상도에 비례하는 토큰 수 증가 없이도 임의 해상도의 이미지를 입력받아 처리할 수 있다, 이는 메모리 사용량과 연산 비용을 크게 절감한다는 장점을 제공한다.

성능 평가에서는 공개된 2 B 규모 VLM 중 가장 높은 다국어 VQA 점수를 기록하였다. 특히 영어, 중국어, 한국어, 아랍어 등 10개 이상의 언어에 대해 기존 최첨단 모델보다 평균 2~3%p 상승한 정확도를 보였으며, 이는 언어 백본의 다국어 사전 학습과 비전‑언어 정합성 학습이 상호 보완적으로 작용한 결과로 해석된다. 또한, 텍스트‑전용 베이스라인(예: Qwen3 단독)과 비교했을 때, VQA와 같은 멀티모달 태스크에서의 성능 격차는 최소화되었으며, 일반적인 자연어 이해 벤치마크에서도 경쟁력 있는 점수를 유지한다.

이 논문이 제공하는 공개 가중치와 코드베이스는 연구 커뮤니티가 멀티모달 모델을 손쉽게 재현하고, 다양한 도메인(예: 의료 영상, 로봇 비전)으로 확장할 수 있는 기반을 마련한다. 향후 연구에서는 어텐션‑풀링 커넥터의 구조를 더욱 경량화하거나, 대규모 고해상도 비디오 스트림에 적용하는 방안을 탐색함으로써 실시간 멀티모달 인공지능 시스템 구축에 기여할 수 있을 것으로 기대된다.

📄 논문 본문 발췌 (Translation)

본 논문에서는 2.4 억 파라미터 규모의 비전‑언어 모델인 jina‑vlm을 제시한다. 이 모델은 SigLIP2 비전 인코더와 Qwen3 언어 백본을 어텐션‑풀링 커넥터를 통해 결합함으로써, 임의 해상도의 이미지를 토큰 효율적으로 처리할 수 있도록 설계되었다. jina‑vlm은 공개된 2 B 규모 VLM 중 다국어 시각 질문 응답(VQA) 분야에서 최첨단 성능을 달성했으며, 표준 VQA 벤치마크와 다국어 평가에서 선도적인 결과를 기록한다. 또한 텍스트 전용 성능에서도 경쟁력을 유지한다. 모델 가중치와 코드는 https://huggingface.co/jinaai/jina‑vlm 에서 공개한다.

📸 추가 이미지 갤러리

clevr.png docvqa.png pathvqa.png screenqa.png tallyqa.png tatqa.png textvqa.png visualwebinstruct.png vqav2.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키