멀티모달 데이터 혼합을 위한 MaD Mix: 잠재공간 결합 기반 비전‑언어 모델 학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
MaD‑Mix는 비전‑언어 모델(VLM) 학습을 위해 도메인별 가중치를 자동으로 결정하는 프레임워크이다. 다중 모달리티를 공유 잠재공간에 결합하고 Fenchel 이중형을 이용해 닫힌 형태의 정렬 점수를 얻는다. 언어 전용 도메인과 같이 모달리티가 누락된 경우도 자연스럽게 처리하며, 실험에서 0.5B와 7B 모델에 대해 인간이 튜닝한 비율보다 22 % 적은 학습 단계로 동등한 성능을 달성하고, 삼중 모달(비디오‑이미지‑텍스트) 상황에서도 균일 가중치 대비 평균 정확도를 크게 향상시켰다.
상세 분석
MaD‑Mix는 VLM 학습에 필요한 데이터 혼합 문제를 “모달리티‑인식 도메인 정렬 최대화”라는 수학적 목표로 정식화한다. 먼저 각 도메인 (D_i) 의 모달리티 (v) 별 임베딩 (x_i^{
댓글 및 학술 토론
Loading comments...
의견 남기기