에지 기기용 효율적 동적 멀티모달 대규모 언어 모델 HyperVL

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HyperVL은 에지 디바이스 배포를 위해 설계된 효율적인 멀티모달 대규모 언어 모델(MLLM)입니다. 고해상도 이미지 처리 시 표준 Vision Transformer(ViT) 인코더의 높은 지연 시간과 메모리 사용량 문제를 해결하기 위해, 이미지 타일링 전략과 두 가지 핵심 기술(시각적 해상도 압축기(VRC), 이중 일관성 학습(DCL))을 도입했습니다. 이를 통해 유사 크기의 모델 대비 최고 수준의 성능을 유지하면서 모바일 디바이스에서의 대기 시간과 전력 소모를 크게 줄였습니다.

상세 분석

HyperVL의 핵심 기술적 혁신은 에지 디바이스의 제한된 자원 환경에서 멀티모달 인퍼런스의 주요 병목 현상을 체계적으로 해결한 데 있습니다. 첫째, **시각적 해상도 압축기(VRC)**는 입력 이미지의 정보 밀도를 실시간으로 분석하여 최적의 인코딩 해상도를 예측합니다. 이는 모든 이미지를 고해상도로 처리하는 고정된 방식을 탈피하여, 시각적 정보가 적은 단순한 이미지에 대해서는 과도한 계산을 제거함으로써 지연 시간과 메모리 사용량을 획기적으로 줄입니다. VRC는 MobileNet 기반의 경량 아키텍처로 설계되어 별도의 부담 없이 기존 MLLM에 플러그인 형태로 통합 가능합니다.

둘째, **이중 일관성 학습(DCL)**은 서로 다른 용량(93M 파라미터 Base, 300M 파라미터 Large)을 가진 두 개의 ViT 인코더를 하나의 공유 LLM(Qwen3 1.7B)에 연결할 수 있도록 정렬합니다. 이를 통해 디바이스 성능, 작업 유형, 대기 시간 예산에 따라 두 시각 브랜치를 동적으로 전환할 수 있는 유연성을 제공합니다. DCL은 두 브랜치를 교대로 훈련시키는 교대 훈련 전략과, 큰 브랜치(Teacher)에서 작은 브랜치(Student)로 지식 증류를 수행하는 의미적 일관성 증류 메커니즘으로 구성됩니다. 이는 리소스가 풍부할 때는 고성능 브랜치를, 제한적일 때는 경량 브랜치를 사용하는 ‘동적’ 인퍼런스의 실현 가능성을 열었습니다.

또한, 이미지 타일링 전략은 고해상도 이미지를 독립적으로 인코딩 가능한 작은 패치로 분할하여 피크 메모리 사용량을 제한합니다. 비전-언어 프로젝터는 픽셀 셔플을 통해 시각 토큰 길이를 1/4로 압축하여 LLM의 처리 부담을 추가로 감소시킵니다. 실험 결과, HyperVL은 OpenCompass 등 다양한 벤치마크에서 유사 규모 모델 대비 SOTA 성능을 달성했으며, 실제 모바일 디바이스에서 측정된 대기 시간과 전력 소비가 크게 개선되어 에지 배포의 실용성을 입증했습니다.

에지 기기용 효율적 동적 멀티모달 대규모 언어 모델 HyperVL

초록

상세 분석

댓글 및 학술 토론

의견 남기기