멀티턴 대비 학습으로 효율을 높인 멀티모달 임베딩 모델 MuCo
초록
MuCo는 하나의 이미지에 대해 여러 질의‑정답 쌍을 대화식으로 처리해 한 번의 이미지 인코딩만으로 다수의 임베딩을 생성한다. 이를 통해 배치 효율을 크게 높이고, 기존 대비 FLOPs는 거의 증가시키지 않으면서도 MMEB·M‑BEIR 등에서 최신 성능을 달성한다.
상세 분석
MuCo는 기존 멀티모달 대형 언어 모델(MLLM) 기반 임베딩 학습이 “single‑turn” 방식에 머물러 있다는 근본적인 한계를 짚고, “multi‑turn” 대비 학습으로 전환한다는 점에서 혁신적이다. 핵심 아이디어는 하나의 이미지에 대해 여러 질의‑정답(pair)들을 연속적인 대화(turn) 형태로 배치하고, <|emb|> 토큰을 각 turn의 끝에 삽입해 해당 turn에서 바로 임베딩을 추출한다는 것이다. 이렇게 하면 이미지에 대한 비쥬얼 인코딩은 최초 한 번만 수행되고, 이후 텍스트‑only turn에서는 가벼운 연산만으로 추가 임베딩을 얻을 수 있다.
구조적으로는 (I, q₁,…,qⱼ)와 (p₁,…,pⱼ)를 누적 결합한 쿼리·긍정 쌍을 하나의 입력 시퀀스로 만든 뒤, InfoNCE 기반의 MuCo 손실 L_MuCo를 적용한다. 여기서 부정 샘플 집합 N_i는 동일 이미지에서 파생된 다른 긍정 쌍을 제외해 “semantic overlap” 문제를 완화한다. 이 설계는 각 turn이 이전 turn의 컨텍스트를 그대로 물려받아, 초기 turn의 임베딩이 뒤따르는 turn들의 학습 신호에 의해 반복적으로 정제되는 효과를 만든다.
데이터 측면에서는 공개된 멀티턴 데이터가 부족하다는 점을 인식하고, M3T라는 5 M 규모의 합성 멀티턴 데이터셋을 구축했다. 이미지당 평균 7개의 질의‑정답 쌍을 포함하도록 설계했으며, LLM과 MLLM을 활용해 다양한 시각적 속성, 관계, 설명 등을 포괄한다.
실험 결과는 두드러진 효율성과 성능 향상을 보여준다. 배치 크기를 7배 확대(1 024→7 168)해도 FLOPs는 3 % 미만 증가했으며, 기존 대비 +0.7 %p의 정확도 상승을 기록했다. MMEB 벤치마크에서는 zero‑shot Precision@1이 +3.0 %p, fine‑tuning에서는 +1.6 %p 향상했으며, M‑BEIR에서는 Recall이 각각 +1.6 %p, +1.7 %p 상승했다. 또한, ablation 실험을 통해 다중 turn 구조, 부정 샘플 마스킹, 그리고 M3T 사전학습이 각각 성능에 미치는 기여도를 정량화했다.
한계점으로는 합성 데이터에 의존한다는 점과, 현재는 이미지당 고정된 turn 수(k)를 사용한다는 점을 들 수 있다. 향후 실제 사용자 대화 로그를 활용하거나, 동적 turn 수를 학습하는 메커니즘을 도입하면 더욱 일반화된 임베딩을 얻을 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기