ReCALL: MLLM 기반 복합 이미지 검색의 성능 저하 재보정
초록
본 논문은 멀티모달 대형 언어 모델(MLLM)을 검색용 단일 임베딩으로 전환할 때 발생하는 ‘Capability Degradation’ 현상을 규명하고, 이를 진단‑생성‑정제 파이프라인인 ReCALL로 회복한다. 자체적인 인포메이티브 인스턴스 마이닝, 체인‑오브‑생각(CoT) 기반 교정 텍스트 생성, VQA 일관성 필터링, 그리고 그룹 대조 학습을 통해 기존 검색 모델의 미세한 시각‑언어 구분 능력을 재내재화한다. CIRR·FashionIQ 벤치마크에서 현존 최고 성능을 달성한다.
상세 분석
ReCALL 논문은 최근 MLLM을 이미지‑텍스트 복합 질의(CIR) 검색에 적용하려는 시도에서, 생성형 모델의 단계적 추론 능력과 단일 임베딩 기반 판별형 검색 사이의 패러다임 충돌이 ‘Capability Degradation’이라는 형태로 나타난다는 중요한 문제를 제기한다. 기존 방식은 Foundation Model(F)을 그대로 contrastive learning으로 미세조정해 R_base을 만들지만, 이 과정에서 모델이 원래 보유하던 미세 시각‑언어 관계 파악 능력이 손실된다. 저자들은 이를 정량·정성적으로 입증했으며, 특히 F가 VQA 방식으로 100% 성공하는 반면 R_base은 동일한 1k 샘플에서 62%·56% 수준에 머무는 점을 통해 성능 격차를 명확히 보여준다.
ReCALL의 핵심은 네 단계 파이프라인이다. ① Diagnose 단계에서는 R_base이 훈련 데이터에서 실패한 쿼리를 자동으로 추출한다. 여기서 ‘hard‑negative’ 이미지 집합 I_h는 정답 I_t와 시각·의미적으로 미세하게 차이나는 상위 K 후보로 정의된다. 이러한 실패 사례는 모델이 미세 구분을 놓치는 지점을 정확히 드러낸다. ② Generate 단계에서는 Foundation Model(F)을 CoT 프롬프트로 활용해, 각 hard‑negative에 대해 최소한의 텍스트 수정 ˜T_m을 생성한다. 구체적으로, F는 (I_r, T_m, I_h) 쌍에 대해 의도 분해·검증을 수행하고, 위배된 의도만을 교정해 최소 편집 텍스트를 만든다. ③ Quality Control에서는 생성된 ˜T_m이 실제 이미지와 일치하는지를 VQA 질문으로 검증한다. 일관성 점수가 낮은 트리플은 폐기해 노이즈 전파를 방지한다. ④ Refine 단계에서는 기존 R_base을 초기화한 뒤, 원본 트리플(I_r, T_m, I_t)과 교정 트리플(I_r, ˜T_m, I_h)을 같은 마이크로‑그룹에 배치해 그룹 대조 학습을 수행한다. InfoNCE 손실을 전역 구조 유지에 사용하면서, 그룹 내에서 정밀한 시각‑언어 차이를 강조해 모델이 미세 구분 경계를 재조정하도록 만든다.
이러한 설계는 두 가지 중요한 기술적 통찰을 제공한다. 첫째, 자기‑주도형 인포메이티브 인스턴스 마이닝은 외부 라벨링 없이도 모델의 약점을 자동 탐색한다는 점에서 데이터 효율성을 크게 높인다. 둘째, 생성‑판별 융합 접근은 MLLM의 풍부한 추론 능력을 판별형 임베딩 학습에 직접 주입함으로써, 기존 대비 8~10% 이상의 R@1 향상을 달성한다. 실험에서는 CIRR과 FashionIQ 두 주요 복합 이미지 검색 데이터셋에서 각각 8.74·9.50 포인트, 9.50·8.74 포인트(표기 방식에 따라 차이) 상승을 기록했으며, 이는 현재 공개된 최첨단 모델들을 모두 앞선 결과다. 또한, LoRA 기반 파라미터 효율적 미세조정과 모델‑불변성(다양한 MLLM 아키텍처에 적용 가능)도 강조한다.
전반적으로 ReCALL은 “검색용으로 변형된 MLLM이 원래의 미세 추론 능력을 잃는 현상”을 체계적으로 진단하고, 생성형 모델의 내부 지식을 활용해 이를 복구하는 자기‑교정 루프를 제시한다. 이는 멀티모달 검색뿐 아니라, 다른 판별형 다운스트림 작업에 MLLM을 적용할 때도 유용한 패러다임을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기