오픈소스 멀티모달 Moxin 시리즈: Moxin‑VLM·VLA·Chinese 모델 전격 소개
초록
Moxin‑7B는 완전 오픈소스 LLM으로, Model Openness Framework에 따라 학습·데이터·코드까지 공개한다. 이를 기반으로 시각‑언어(VLM), 시각‑언어‑액션(VLA), 그리고 중국어 특화(Moxin‑Chinese) 모델을 구축했으며, DINOv2·SigLIP 시각 백본과 완전 공개 데이터셋을 활용해 기존 LLaMA·Mistral 기반 멀티모달 모델보다 2% 이상 높은 정확도를 달성한다.
상세 분석
본 논문은 현재 AI 생태계에서 ‘폐쇄형’과 ‘오픈형’ 모델이 공존하는 상황을 진단하고, 오픈소스 모델의 투명성과 재현성을 강화하기 위한 Model Openness Framework(MOF)를 도입한다. MOF는 모델 가중치뿐 아니라 학습 코드, 데이터 파이프라인, 토크나이저 사전까지 전부 공개함으로써 ‘오픈워싱’ 문제를 방지하고, 연구자 간 협업을 촉진한다. Moxin‑7B는 7 B 파라미터 규모의 LLM으로, 기존 오픈소스 LLM(LLaMA, Mistral) 대비 토크나이저와 학습 스케줄을 세밀하게 설계했으며, 공개된 1.2 T 토큰(주로 영어)으로 사전학습을 진행했다.
멀티모달 확장은 세 가지 파생 모델로 구분된다. 첫 번째 Moxin‑VLM은 Prismatic VLM 프레임워크를 차용해, DINOv2와 SigLIP 두 시각 백본을 병합한다. DINOv2는 저수준 공간 정보를, SigLIP은 다양한 인터넷 이미지(스케치, 다이어그램 등)를 학습해 상보적인 특징을 제공한다. 시각 백본은 고정하고, 투사층과 LLM을 공동 학습하는 단일 단계 방식을 채택했으며, LLaVA v1.5 데이터 믹스(558 K 이미지‑텍스트 쌍 + 665 K 멀티모달 인스트럭션)로 두 에포크를 수행한다. 실험 결과, 동일 파라미터 규모의 LLaMA·Mistral 기반 VLM 대비 평균 정확도가 2~3%p 상승한다.
두 번째 파생 모델인 Moxin‑VLA는 VLM을 로봇 제어에 적용한 형태이다. OpenVLA‑OFT 레시피를 사용해 액션 헤드를 병렬 디코딩·액션 청킹 방식으로 설계, 시간 지연을 크게 감소시켰다. 학습은 두 가지 경로를 비교했는데, (1) Open‑X Embodiment 데이터(1 M+ 트라젝터리)로 일반화 사전학습 후 파인튜닝, (2) 사전학습 없이 바로 VLM 체크포인트에서 파인튜닝하는 방식이다. 두 경로 모두 8×H100 GPU 90 k 스텝(≈2주) 내에 수렴했으며, 특히 직접 파인튜닝 방식이 사전학습 대비 학습 비용을 절감하면서도 동일 수준의 로봇 조작 성능을 보였다.
세 번째 파생 모델인 Moxin‑Chinese는 중국어 처리 능력 강화를 목표로 한다. 기존 Moxin‑7B는 영어 토크나이저가 중국어 문자를 거의 지원하지 않아, 57 k 규모의 중국어 BPE 토큰을 추가하고, WuDaoCorpus2 등 고품질 중국어 코퍼스를 이용해 추가 사전학습을 진행했다. 결과적으로 영어‑중국어 번역 BLEU 점수가 기존 모델 대비 4~5점 상승했으며, 중국어 QA 및 요약 벤치마크에서도 경쟁 모델을 앞섰다.
전반적으로 본 연구는 완전 오픈소스 멀티모달 모델 구축을 위한 데이터·코드·학습 파이프라인을 공개함으로써, 향후 커뮤니티 기반 모델 개선과 응용 연구에 중요한 기반을 제공한다는 점에서 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기