스위머버드: 멀티모달 LLM의 가변형 사고 모드 구현

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

스위머버드는 텍스트, 비전, 텍스트‑비전 혼합 3가지 사고 모드를 입력에 따라 자동 전환하는 하이브리드 자동회귀 MLLM이다. 텍스트 토큰은 기존 언어 모델처럼 다음 토큰을 예측하고, 비전 사고는 연속적인 임베딩을 예측하는 방식으로 통합한다. 또한 이미지 해상도에 따라 동적 비전 토큰 수를 할당해 시각‑집중 과제에서 효율성을 높였다. 92K 규모의 다중모드 SFT 데이터셋을 구축해 학습했으며, 텍스트 논리와 시각 추론 모두에서 기존 고정‑패턴 모델을 앞선 성능을 보였다.

상세 분석

스위머버드의 핵심 혁신은 “사고 모드 전환”이라는 메타 레벨 설계에 있다. 기존 멀티모달 CoT 모델은 텍스트‑전용, 비전‑전용, 혹은 고정된 교차형 세 가지 템플릿 중 하나를 선택해 모든 입력에 적용한다. 이는 질문의 시각‑인지 요구와 불일치할 경우 불필요한 시각 토큰을 생성하거나, 반대로 텍스트‑논리 단계에서 시각 토큰을 강제해 논리 일관성을 해치는 ‘모드 불일치(modality mismatch)’ 문제를 야기한다. 스위머버드는 입력과 현재 추론 상태를 조건으로 삼아, 텍스트‑전용, 비전‑전용, 텍스트‑비전 교차형 중 최적의 모드를 자동 선택한다. 이를 위해 (1) 텍스트 사고는 전통적인 next‑token 예측으로, (2) 비전 사고는 연속적인 hidden‑state 임베딩을 next‑embedding 형태로 예측하는 하이브리드 자동회귀 구조를 도입했다. 두 예측 방식은 각각 cross‑entropy와 MSE 손실로 독립적으로 학습되며, λ 텍스트·λ 비전 가중치를 통해 균형을 맞춘다.

또 다른 중요한 설계는 “동적 비전 토큰 예산”이다. 기존 연구는 고정된 길이(예: 8~16개의 latent token)로 비전 사고를 제한했는데, 이는 고해상도 이미지에서 세밀한 공간 정보를 손실하거나, 저해상도 이미지에서는 과도한 연산을 초래한다. 스위머버드는 Qwen‑ViT 기반의 픽셀/패치 예산 제어 메커니즘을 활용해, 입력 이미지와 중간 사고 이미지 각각에 대해

스위머버드: 멀티모달 LLM의 가변형 사고 모드 구현

초록

상세 분석

댓글 및 학술 토론

의견 남기기