LLaVA OneVision 1.5: 완전 오픈 멀티모달 학습 프레임워크
초록
LLaVA-OneVision-1.5은 대규모 멀티모달 모델(LMM)을 처음부터 구축하기 위한 완전 오픈소스 프레임워크입니다. 8500만 개의 개념 균형 사전 학습 데이터셋과 2200만 개의 정교한 명령어 데이터셋을 구축하고, 오프라인 데이터 패킹 전략을 통해 약 16,000달러의 예산으로 효율적인 학습이 가능합니다. 결과적으로, 8B 파라미터 모델은 Qwen2.5-VL-7B를 27개 벤치마크 중 18개에서, 4B 모델은 Qwen2.5-VL-3B를 모든 벤치마크에서 능가하는 최첨단 성능을 달성했습니다. 가벼운 RL 기반 후속 학습을 통해 복잡한 추론 과제에서의 성능도 크게 향상되었습니다.
상세 분석
LLaVA-OneVision-1.5의 핵심 기술적 혁신은 크게 세 가지로 요약됩니다. 첫째, RICE-ViT 비전 인코더의 도입입니다. 기존의 SigLIP나 DFN과 같은 전역적(global) 정렬 모델과 달리, RICE-ViT는 통합된 지역 클러스터 판별 손실을 통해 객체 중심 이해와 OCR 능력을 동시에 강화합니다. 2D 회전 위치 인코딩을 활용해 다양한 해상도의 입력을 자연스럽게 처리하며, 지역 인식 어텐션 메커니즘을 통해 세밀한 시각적 의미를 포착합니다. 이는 차트, 문서, 객체 위치 파악 등 고난도 과제에 필수적인 지역 수준의 시맨틱 표현력을 제공합니다.
둘째, 데이터의 질적 관리와 효율적 학습 파이프라인입니다. MetaCLIP에서 영감을 받은 개념 균형 샘플링 전략을 채택했지만, 메타데이터에 의존하는 원래 방식의 한계를 극복했습니다. 이미지와 개념을 공유 임베딩 공간에 투영한 후 유사도 기반으로 상위-K 개념을 할당하는 방식으로, 캡션이 부재하거나 불완전한 데이터 소스(예: SAM-1B, ImageNet-21K)에서도 효과적으로 개념 균형을 맞출 수 있습니다. 학습 측면에서는 이질적인 멀티모달 데이터로 인한 패딩 오버헤드를 해결하기 위해 오프라인 병렬 데이터 패킹 전략을 제안합니다. 학습 전에 여러 개의 짧은 샘플을 하나의 패킹된 시퀀스로 통합함으로써 GPU 활용률을 극대화하고, 전체 학습 비용을 16,000달러로 획기적으로 낮췄습니다.
셋째, 경량 RL 후속 학습의 전략적 적용입니다. 단순한 지시 조정을 넘어, 비동기 AReal 시스템을 이용한 경량 RL 단계를 도입했습니다. 불일치 기반 데이터 선택과 결과 검증을 통해 모델 내재된 사고 사슬(Chain-of-Thought) 추론 능력을 효과적으로 이끌어냈습니다. 이는 특히 수학, 과학, 복잡한 추론이 필요한 벤치마크(예: MathVista, MMMU)에서 성능을 비약적으로 향상시킨 주요 요인입니다. 이 모든 기술이 통합되어 LLaVA-OneVision-1.5는 폐쇄형 SOTA 모델에 필적하는 성능을 개방형 프레임워크로 구현하는 데 성공했습니다.
댓글 및 학술 토론
Loading comments...
의견 남기기