시각 문서 임베딩을 위한 자동회귀 다중벡터 생성 CausalEmbed
초록
CausalEmbed는 기존 멀티벡터 방식이 요구하던 수천 개의 시각 토큰을 수십 개로 압축한다. 사전학습된 MLLM을 자동회귀적으로 미세조정해 단계별로 잠재 벡터를 생성하고, 대비학습에 반복 마진 손실을 도입해 표현을 조밀하고 구조화한다. 이 접근법은 저장·연산 비용을 30‑155배 줄이면서도 다양한 백본과 벤치마크에서 경쟁력 있는 검색 정확도를 유지한다. 또한 테스트 시 생성 토큰 수를 조절해 성능‑효율 트레이드오프를 동적으로 제어할 수 있다.
상세 분석
CausalEmbed는 시각 문서 검색(VDR)에서 “멀티벡터 → 자동회귀 생성”이라는 새로운 패러다임을 제시한다. 기존 방법은 페이지를 수백·수천 개의 패치 토큰으로 인코딩해 각각을 독립적인 임베딩으로 만든 뒤, late‑interaction(예: max‑sim) 방식으로 쿼리와 매칭한다. 이 구조는 풍부한 레이아웃 정보를 보존하지만, 토큰 수가 많아 저장·전송 비용이 급증한다는 근본적인 한계가 있다.
CausalEmbed는 먼저 비전‑언어 모델(Φ, Ψ)을 사전학습된 MLLM에서 가져와, 입력 이미지 I(또는 텍스트 쿼리 T)를 초기 컨텍스트 C(시각 특징 혹은 토큰 시퀀스)로 변환한다. 이후 Ψ를 자동회귀적으로 사용해 “z₁, z₂, …, z_L” 형태의 잠재 벡터를 순차적으로 생성한다. 각 단계 k에서 모델은 기존 컨텍스트와 이전에 생성된 벡터들을 concat하고, 최종 토큰의 hidden state τ(·)를 추출해 다음 벡터를 만든다. 이렇게 하면 토큰 수 L을 자유롭게 조절할 수 있어, 저장 비용을 직접 제어한다는 점이 핵심이다.
학습 목표는 기존 대비학습 손실(contrastive margin loss) 위에 “iterative margin loss”를 추가해, 매 단계마다 양·음 샘플 간 마진을 강화한다. 구체적으로 배치 내 hardest negative를 선택하고, sigmoid‑based error signal σ(S⁻−S⁺)−1을 통해 양·음 쌍을 구분한다. 자동회귀 구조는 각 토큰이 이전 토큰에 의존하므로, 역전파 시 전체 생성 체인을 따라 gradient가 흐른다. 논문은 이를 수식(15‑16)으로 정리하고, 전통적인 패치‑레벨 방식이 대부분의 토큰에 gradient가 거의 전달되지 않아 학습 효율이 낮은 반면, 자동회귀 방식은 모든 토큰이 전체 컨텍스트를 활용해 업데이트되므로 학습 효율과 표현 품질이 크게 향상된다고 주장한다.
실험에서는 ColPali, Light‑ColPali, MetaEmbed 등 기존 압축·프루닝 기반 방법과 비교했다. 동일한 토큰 수(예: 30 × 압축)에서 CausalEmbed는 mAP·Recall@k 지표가 2‑5%p 상회했으며, 특히 PaliGemma 같은 저성능 백본에서도 14.6%p 이상의 성능 향상을 기록했다. 다양한 백본(Qwen‑VL, Llama‑Nemoretriever, Gemma‑3 등)과 데이터셋(DocVQA, PubLayNet 등)에서 일관된 개선을 보였으며, 토큰 수를 10‑200 사이로 자유롭게 조절해 테스트‑타임 스케일링이 가능함을 입증했다.
이론적 분석과 실험 결과는 자동회귀 임베딩이 (1) 저장·연산 효율성, (2) 학습 효율성, (3) 테스트‑타임 유연성 측면에서 기존 멀티벡터 압축 기법을 능가함을 보여준다. 또한, “생성형 임베딩”이라는 새로운 연구 방향을 제시함으로써, 향후 MLLM 기반 문서 검색에서 토큰 수와 성능을 동시에 최적화하는 방법론의 기반을 마련한다.
댓글 및 학술 토론
Loading comments...
의견 남기기