퍼리미드 매칭과 무학습 정제로 강화된 감독형 복합 이미지 검색
초록
본 논문은 이미지와 수정 텍스트를 동시에 활용하는 복합 이미지 검색(CIR)에서, 다중 스케일 시각 토큰을 제공하는 ‘퍼리미드 패처’와 사전 학습된 대형 비전‑언어 모델(LVLM)에서 추출한 추론‑증강 표현(RAug‑Rep)을 무학습 방식으로 주입하는 두 단계 프레임워크(PMTFR)를 제안한다. 퍼리미드 매칭 모델은 대조 학습으로 빠른 초기 검색을 수행하고, 훈련‑프리 정제 단계에서는 추론 정보를 활용해 재점수를 계산·융합함으로써 기존 최고 성능을 뛰어넘는다.
상세 분석
PMTFR은 크게 두 모듈로 구성된다. 첫 번째는 퍼리미드 매칭 모델(Pyramid Matching Model)이며, 여기서는 사전 학습된 LVLM의 이미지 인코더를 그대로 사용하고, 최종 토큰을 쿼리와 타깃 이미지의 임베딩으로 활용한다. 핵심은 ‘퍼리미드 패처(Pyramid Patcher)’라는 간단하지만 효과적인 전처리 단계이다. 기존 Vision Transformer가 고정된 패치 크기(P)만을 사용해 이미지 토큰을 생성하는 반면, 퍼리미드 패처는 동일 이미지를 M가지 스케일로 복제하고 각각 패치 크기를 2^i·P (i=0…M‑1) 로 설정한다. 이렇게 하면 작은 패치에서는 미세 디테일이, 큰 패치에서는 전역 구조가 포착돼 다중 수용 영역을 동시에 학습한다. 토큰들은 차원 D로 임베딩된 뒤 concat 연산으로 하나의 긴 시퀀스로 결합되며, 이는 기존 ViT 대비 연산량 증가가 제한적이면서도 표현력을 크게 향상시킨다.
두 번째 단계인 ‘훈련‑프리 정제(Training‑Free Refinement)’는 기존의 두 단계식 CIR(초기 검색 후 랭킹 모델 학습)과 달리 추가 파라미터 학습 없이 성능을 끌어올린다. 여기서는 체인‑오브‑쓰(Chain‑of‑Thought, CoT) 데이터를 이용해 ‘추론‑증강 표현(RAug‑Rep)’을 추출한다. 구체적으로, 사전 학습된 LVLM에 ‘쿼리‑이미지‑후보 이미지’ 쌍을 입력하고, 모델 내부의 특정 레이어(예: N‑1번째 레이어)에서 얻은 은닉 상태를 RAug‑Rep으로 정의한다. 이 벡터는 추론 경로를 텍스트 형태로 명시하지 않으면서도 모델이 “정답 여부 판단”이라는 고차원 능력을 활성화한다. 추출된 RAug‑Rep은 추론 단계에서 후보 이미지와 쌍을 이룰 때마다 모델에 주입되어, 정규화된 점수(예: 0.7/0.3) 형태의 정제 스코어를 산출한다. 최종 순위는 초기 대조 기반 스코어와 정제 스코어를 가중 평균하거나 학습된 스코어 퓨전 방식으로 결합한다.
핵심 인사이트는 다음과 같다. ① 다중 스케일 토큰은 CIR 특성상 “배경(거시) + 객체(미세)” 정보를 동시에 필요로 하는데, 이를 별도 복잡한 네트워크 없이 이미지 복제와 패치 크기 변형만으로 구현한다. ② CoT 기반 텍스트 생성이 아닌, CoT 데이터에서 얻은 내부 표현을 직접 주입함으로써 추론 비용을 크게 절감한다. ③ 정제 단계가 ‘훈련‑프리’이므로 데이터 재구성, 추가 라벨링, 혹은 랭킹 모델 학습에 드는 시간·자원을 전혀 소모하지 않는다. 실험 결과, 두 주요 CIR 벤치마크(FashionIQ, CIRR)에서 PMTFR은 기존 최첨단 방법들을 크게 앞서며, 특히 Top‑1 정확도와 Recall@10에서 평균 2~3%p 상승을 기록한다. 이는 퍼리미드 패처와 RAug‑Rep이 각각 시각적 세밀함과 추론 기반 의미 일치를 보완한다는 증거다.
또한, 코드 공개와 함께 사전 학습된 LVLM(예: BLIP‑2, LLaVA)과의 호환성을 강조함으로써, 연구자들이 손쉽게 재현·확장할 수 있도록 설계되었다. 향후 연구 방향으로는 (1) 퍼리미드 스케일 수를 자동 최적화하는 메타‑러닝, (2) 다양한 도메인(의료, 위성 이미지)에서 RAug‑Rep의 일반화 평가, (3) 멀티‑모달 프롬프트와 결합한 하이브리드 정제 방식이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기