모바일 효율 멀티모달 대형 언어 모델 AndesVL

본 논문은 클라우드 기반 대형 멀티모달 LLM이 모바일 디바이스의 메모리·전력·연산 한계에 부합하지 못한다는 문제를 출발점으로, OPPO AI Center에서 개발한 AndesVL 시리즈를 제안한다. AndesVL은 파라미터 규모를 0.6 B, 1 B, 2 B, 4 B 네 단계로 제공하며, Qwen3 시리즈의 LLM과 최신 ViT 기반 시각 인코더(AIMv2‑Large, SigLIP2‑Base)를 결합한다. 모델 구조는 시각 인코더 → MLP 프로젝터 → LLM 순으로 이루어지며, NaViT 기반 Native Resolution ViT(NaViT) 전략을 통해 입력 이미지의 해상도와 종횡비를 그대로 유지한다. MLP 프로젝터는 두 개의 완전 연결 레이어와 4×4 패치 결합 픽셀 셔플링을 적용해 시각 토큰 수를 ¼로 감소시켜 LLM에 전달되는 시퀀스 길이를 크게 줄인다. 학습 파이프라인은 두 가지 모델 변형으로 나뉜다. Instruction 모델은 일반 대화·명령 수행에 초점을 맞추고, Thinking 모델은 복합 추론·수학·코드 작성을 위한 CoT(Chain‑of‑Thought) 학습을 포함한다. 데이터는 캡션, 이미지‑텍스트 교차, OCR, VQA, 순수 텍스트, Long‑CoT 등 6가지 유형을 포함한 대규모 멀티모달 코퍼스를 구축했으며, 특히 모바일 UI 스크린샷과 다중 이미지 시나리오를 위한 데이터를 추가해 UI 이해와 멀티 이미지 처리 능력을 강화했다. 모바일 배포를 위한 핵심 기술로는 1+N LoRA와 Quantization‑Aware LoRA Fine‑Tuning(QALFT) 프레임워크가 도입된다. 1+N LoRA는 기본 AndesVL 백본에 N개의 LoRA 모듈을 병렬 연결해 작업군별 파라미터 공유와 빠른 적응을 가능하게 하며, QALFT는 양자화(4‑bit·2‑bit) 후에도 LoRA 가중치를 재학습함으로써 성능 저하를 최소화한다. 실험 결과, QALFT 적용 후 AndesVL‑4B는 원본 FP‑32 모델 대비 3 % 이하의 성능 저하만 보이며, 다양한 모바일 태스크에 대해 높은 적응성을 보였다. 디바이스 최적화 측면에서는 OKV(Optimized Key‑Value) 캐시 폐기 알고리즘을 설계해 KV 캐시 메모리 사용량을 동적으로 조절하고, 탐색적 디코딩과 스파스화 기법을 결합해 블록 효율성(Block Efficiency)을 7.9까지 끌어올렸다. 이러한 최적화는 MediaTek Dimensity 9500 NPU에서 AndesVL‑4B를 실행할 때, 최대 6.7배 디코딩 속도 향상, 30.9 % 메모리 절감, 1.8 bits/weight 압축을 달성하게 했다. 벤치마크는 32개의 공개·자체 구축 멀티모달 테스트를 포함해 텍스트‑리치 이미지 이해, 수학·추론, 다중 이미지, 일반 VQA, 환각 억제, 다국어, UI 이해 등 6대 도메인에서 수행되었다. 동일 규모 SOTA 모델(예: Qwen2.5‑VL‑3B, InternVL‑3.5‑4B 등)과 비교했을 때, AndesVL‑4B는 전반적으로 1‑2 % 이상의 정확도 향상을 보였으며, 특히 UI 이해와 다중 이미지 처리에서 두드러진 성능을 기록했다. 결론적으로, AndesVL은 모델 설계, 데이터 구성, 양자화·LoRA·디코딩 최적화까지 모바일 환경을 전방위로 고려한 통합 솔루션을 제공한다. 파라미터 규모가 0.6 B에서 4 B까지 다양하게 제공되어 다양한 모바일 디바이스와 애플리케이션 시나리오에 적용 가능하며, 공개된 모델과 코드(https://huggingface.co/OPPOer) 덕분에 연구 커뮤니티와 산업 현장에서 재현 및 확장이 용이하다. 향후 연구는 더 높은 양자화 비트 수 감소, 멀티모달 연산 가속기와의 협업, 그리고 실시간 UI 조작 지원 등으로 확장될 수 있다.

모바일 효율 멀티모달 대형 언어 모델 AndesVL

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기