대화형 이미지 검색을 위한 대규모 멀티모달 데이터셋 ChatSearch와 생성형 검색 모델 ChatSearcher
초록
본 논문은 인간‑컴퓨터 대화를 통해 자유로운 형태의 이미지 검색을 수행하도록 설계된 ChatSearch 데이터셋과, 텍스트·이미지를 교차 입력·출력으로 처리하는 생성형 검색 모델 ChatSearcher를 소개한다. 데이터셋은 다라운드 멀티모달 대화(텍스트와 이미지)와 목표 이미지 쌍을 포함하며, 자동 파이프라인과 인간 검수를 결합해 고품질을 확보한다. 모델은 Vicuna‑7B 기반 LLM에 CLIP‑ViT‑L 시각 백본과 Q‑former를 연결해 이미지 임베딩을 토큰화하고, 단일 생성 목표(단어 예측·이미지 매칭)로 학습한다. 실험 결과, ChatSearcher는 ChatSearch 테스트에서 높은 Recall@K를 기록하고, 기존 텍스트‑이미지 검색·시각 대화 벤치마크에서도 경쟁력을 보인다.
상세 분석
본 연구는 “일반적인 대화형 이미지 검색”이라는 새로운 과제를 정의하고, 이를 지원하기 위한 두 가지 핵심 자원을 제공한다. 첫째, ChatSearch 데이터셋은 기존 MS‑COCO 이미지‑텍스트 쌍을 기반으로 자동화된 파이프라인을 구축한다. 파이프라인은 GPT‑4, CLIP‑H, BLIP‑2‑OPT2.7B 등 최신 대형 모델을 활용해(1) 텍스트‑전용 다라운드 대화, (2) 이미지‑텍스트 혼합 1라운드 대화, (3) 멀티라운드 멀티모달 대화를 각각 생성한다. 특히 “reference‑image”(MDC‑I)와 “reference‑text”(MDC‑T) 두 전략을 병행함으로써 이미지 쌍의 유사성·다양성을 조절하고, 이후 컨텍스트 병합을 통해 복합적인 대화 흐름을 만든다. 생성된 데이터는 인간 전문가가 이미지 품질과 대화 논리·연관성을 검수해 테스트 셋을 정제한다. 결과적으로 tChatSearch(텍스트 전용), iChatSearch(이미지‑텍스트 1라운드), mChatSearch(멀티라운드 멀티모달) 세 하위 과제로 구분된 30 K여개의 대화가 확보되었다.
둘째, 제안된 ChatSearcher 모델은 “생성형 검색”이라는 패러다임을 구현한다. 기본 LLM은 Vicuna‑7B v1.5를 사용하고, 시각 백본으로 CLIP ViT‑L을 채택해 이미지당 글로벌 CLS 토큰과 Q‑former가 만든 N개의 dense embedding을 추출한다. 이 시각 토큰들을 `
댓글 및 학술 토론
Loading comments...
의견 남기기