시각 문서 검색을 위한 최첨단 라이트 인터랙션 임베딩 모델 Nemotron ColEmbed V2
초록
Nemotron ColEmbed V2는 시각 문서 검색(VDR)에서 최신 성능을 달성한 라이트 인터랙션 기반 임베딩 모델군이다. 3 B, 4 B, 8 B 파라미터 규모의 세 가지 변형을 NVIDIA Eagle 2와 Qwen3‑VL 백본으로 구축했으며, 8 B 모델은 2026년 2월 기준 ViDoRe V3 벤치마크에서 NDCG@10 63.42점으로 1위를 차지했다. 주요 기술로는 클러스터 기반 샘플링, 하드 네거티브 마이닝, 양방향 어텐션 전환, 라이트 인터랙션 설계, 모델 머징 등이 사용되었으며, 저장 용량과 추론 비용 사이의 트레이드오프를 완화하기 위한 차원 축소 실험도 제공한다.
상세 분석
본 논문은 시각 문서 검색이라는 특수 도메인에서 라이트 인터랙션(Late Interaction) 메커니즘을 성공적으로 적용한 사례를 상세히 제시한다. 기존의 bi‑encoder 방식은 문서와 쿼리를 단일 벡터로 압축해 효율성을 확보했지만, 복잡한 레이아웃이나 시각적 요소가 풍부한 페이지에서는 표현력이 부족했다. 반면, ColBERT에서 영감을 받은 라이트 인터랙션은 각 토큰(또는 이미지 패치) 별 임베딩을 저장하고, 쿼리 토큰과 문서 토큰 간 최대 유사도(MaxSim)를 계산해 최종 점수를 산출한다. 이 접근법은 토큰‑레벨 매칭을 가능하게 하여 정밀도를 크게 향상시키지만, 문서당 다수의 임베딩을 저장해야 하므로 저장 용량과 추론 시 연산량이 급증한다는 단점이 있다.
Nemotron ColEmbed V2는 이러한 라이트 인터랙션을 VLM(Visual Language Model) 백본에 결합한다. 3 B 모델은 NVIDIA Eagle 2(Llama 3.2 3B) 기반이며, 4 B·8 B 모델은 Qwen3‑VL‑4B·8B‑Instruct를 사용한다. 핵심 설계 변경점은 기존 디코더형 VLM의 인과적(causal) 어텐션을 양방향(bidirectional) 어텐션으로 전환한 것이다. 이는 토큰이 앞뒤 컨텍스트를 모두 활용하도록 하여 임베딩 품질을 크게 개선한다는 기존 연구와 일치한다.
데이터 측면에서는 클러스터 기반 샘플링을 도입해 도메인 불균형을 완화한다. 문서 이미지 임베딩을 3072‑차원에서 PCA로 50‑차원으로 축소한 뒤 K‑Means와 gap statistic을 활용해 14개의 클러스터를 정의하고, 각 클러스터에서 균등하게 샘플을 추출한다. 이는 과소표현된 도메인에서도 충분한 학습 신호를 확보하도록 돕는다. 하드 네거티브 마이닝은 내부 Llama‑Eagle 3B 모델을 교사(teacher)로 활용해 쿼리와 가장 유사한 상위 k 페이지를 후보로 선정하고, 양성 샘플 유사도 대비 95 % 이하인 경우에만 네거티브로 사용한다. 이 방식은 false‑negative를 최소화하면서도 모델이 어려운 사례에 집중하도록 만든다.
라이트 인터랙션의 저장·연산 비용 문제를 완화하기 위해 차원 축소 실험을 수행한다. 임베딩 차원을 4096→2048→1024 등으로 단계적으로 낮추면서 NDCG@10 감소폭을 측정했으며, 2048 차원에서는 저장 용량을 절반으로 줄이면서도 성능 저하가 0.3 % 미만에 그쳐 실용적인 트레이드오프를 제시한다.
마지막으로 모델 머징을 통해 서로 다른 사전학습 VLM(예: Eagle 2와 Qwen3‑VL)의 가중치를 평균·가중합하여 단일 모델에 앙상블 효과를 부여한다. 머징된 8 B 모델은 개별 모델 대비 NDCG@10이 약 1.2 % 상승했으며, 이는 라이트 인터랙션 기반 시스템에서도 효율적인 앙상블 전략이 가능함을 증명한다.
전체적으로 Nemotron ColEmbed V2는 라이트 인터랙션을 시각 문서에 적용하면서도, 데이터 균형, 하드 네거티브, 양방향 어텐션, 차원 축소, 모델 머징 등 다각적인 최적화 기법을 결합해 현재 최고 수준의 성능을 달성했다. 특히 8 B 모델이 ViDoRe V3에서 1위를 차지한 점은 대규모 멀티모달 검색 시스템에 실용적인 솔루션을 제공한다는 점에서 큰 의의를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기