합성 캡션으로 다중모달 파인튜닝 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 단일 이미지‑라벨 데이터셋을 다중모달 형태로 변환하기 위해 대형 멀티모달 언어 모델(MLLM)을 활용, 각 이미지에 고품질 합성 캡션을 자동 생성한다. 생성된 캡션을 이용해 이미지‑텍스트 쌍을 학습하고, 클래스 라벨 정보를 포함한 감독형 대비 손실을 도입해 같은 클래스의 표현을 클러스터링한다. 또한, 다수의 캡션을 평균화한 텍스트 임베딩을 사용한 새로운 추론 방식을 제안한다. 13개 벤치마크와 다양한 few‑shot 설정에서 기존 CLIP 파인튜닝 대비 성능이 크게 향상됨을 입증한다.

상세 분석

이 연구는 멀티모달 사전학습과 단일모달 파인튜닝 사이에 존재하는 구조적 불일치를 근본적으로 해소하려는 시도이다. 핵심 아이디어는 기존 이미지‑라벨 데이터에 대해 MLLM(Gemini 2.5 Flash‑Lite)을 활용해 “클래스명, 도메인, 시각·형태·질감”을 명시적으로 포함하는 프롬프트를 제공함으로써, 50단어 이내의 풍부하고 구체적인 캡션을 자동 생성하는 것이다. 이렇게 얻어진 캡션은 CLIP 스타일의 “a photo of a

합성 캡션으로 다중모달 파인튜닝 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기