다중 비전 인코더 융합으로 시각 이해 강화: LEO 모델 제안
초록
본 논문은 여러 사전 학습된 비전 인코더를 결합하는 Mixture of Vision Encoders(MoVE) 접근법을 체계적으로 분석하고, 동적 타일링, 토큰 수준 시퀀스 인터리빙, 독립 프로젝터 기반 사후 적응 융합이라는 세 가지 핵심 설계 원칙을 도출한다. 이를 바탕으로 경량화된 LEO 아키텍처를 제안하여 11개의 비전‑언어 벤치마크와 자율주행 도메인에서 기존 MoVE 기반 모델들을 전반적으로 능가한다.
상세 분석
본 연구는 MoVE 기반 멀티모달 대형 언어 모델(MLLM)에서 시각 토큰의 효율적 통합 방식을 탐구한다. 첫 번째 핵심 발견은 동적 타일링(dynamic tiling)과 전역 컨텍스트(Global Context)를 결합한 ‘Tiled MoVE’가 고해상도 이미지를 처리하면서도 토큰 길이 제한을 초과하지 않도록 한다는 점이다. 고정 그리드나 겹침 타일링에 비해 동적 타일링은 이미지의 종횡비에 따라 타일 수와 배치를 자동 조정해 중요한 영역을 놓치지 않으며, 전체 이미지 썸네일을 별도 토큰으로 제공함으로써 지역적 디테일과 전역적인 레이아웃 정보를 동시에 학습한다.
두 번째로, 토큰 병합 전략을 비교한 결과, 복잡한 교차 주의(cross‑attention) 메커니즘보다 단순한 시퀀스 인터리빙(sequence interleaving)이 일관적으로 우수했다. 인터리빙은 각 타일에서 추출된 토큰 시퀀스를 교차 삽입해 토큰 순서를 유지하면서도 두 인코더의 특성을 균형 있게 반영한다. 이는 토큰 순서가 LLM의 자기회귀 구조에 자연스럽게 맞아 학습 안정성을 높이고, 연산 비용도 낮추는 장점이 있다.
세 번째 발견은 토큰 융합 시점을 ‘사후 적응(post‑adaptation)’으로 설정하고, 각 비전 인코더마다 독립적인 선형 프로젝터를 두는 것이 효과적이라는 것이다. 사전 적응(pre‑adaptation) 방식은 인코더 출력이 LLM 토큰 공간에 정렬되기 전에 합쳐져 인코더 고유의 표현이 손실될 위험이 있다. 반면, 각각의 프로젝터가 별도로 학습되면 인코더별 특성이 보존된 채 LLM에 매핑되며, 이후 인터리빙 단계에서 자연스럽게 결합된다. 실험 결과, 이 설계가 다양한 벤치마크에서 평균 1.2~2.5%p의 성능 향상을 가져왔다.
LEO 모델은 위 세 가지 원칙을 하나의 파이프라인에 통합한다. 입력 이미지 → 동적 타일링 + 전역 썸네일 → 두 비전 인코더(예: CLIP‑ViT, DINOv2) 별 처리 → 독립 프로젝터 → 타일‑레벨 시퀀스 인터리빙 → LLM 입력. 전체 구조는 파라미터 효율성이 높으며, 기존 MoVE 기반 모델에 비해 학습·추론 비용이 15~20% 감소한다. 또한, 자율주행 데이터셋(예: BDD100K)에 그대로 적용했을 때 별도 도메인 적응 없이도 경쟁 모델과 동등하거나 약간 앞서는 성능을 기록한다. 이는 LEO가 시각 토큰의 다중 스케일·다중 도메인 특성을 효과적으로 포착함을 의미한다.
전반적으로 본 논문은 MoVE 설계에서 ‘어디에, 언제, 어떻게’ 토큰을 결합할 것인가에 대한 실증적 근거를 제공하고, 복잡한 라우팅·교차 주의 대신 가벼운 인터리빙·독립 프로젝터 방식을 채택함으로써 실용성을 크게 높였다. 이러한 설계 원칙은 향후 더 많은 비전 전문가를 추가하거나, 다른 멀티모달 태스크(예: 비디오‑텍스트)로 확장하는 데도 그대로 적용 가능할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기