마이크로컨트롤러용 초소형 비전언어 모델로 제로샷 객체 탐지 구현
초록
TinyVLM은 비전‑언어 모델을 마이크로컨트롤러(MCU) 수준으로 압축해 1 MB 이하 메모리로 제로샷 객체 탐지를 가능하게 한다. 핵심은 시각 인코더와 텍스트 인코더를 분리하고, 다중 차원 매트료시카 임베딩을 학습해 필요 메모리에 맞게 차원을 자유롭게 조절한다는 점이다. 16‑256 차원의 중첩 임베딩, 8‑bit 양자화, 그리고 MobileNetV2 기반 시각 인코더를 결합해 COCO·Flowers102·Food101에서 경쟁력 있는 정확도를 유지하면서 STM32H7에서는 26 FPS, MAX78000에서는 1 000 FPS 이상을 달성한다.
상세 분석
TinyVLM 논문은 MCU와 같은 극한 자원 제한 환경에서 제로샷 객체 탐지를 실현하기 위한 설계·학습·배포 전 과정을 체계적으로 제시한다. 첫 번째 혁신은 **시각‑텍스트 구조의 분리(decoupled architecture)**이다. 기존 CLIP 계열 모델은 이미지와 텍스트를 동시에 인코딩해야 하지만, 폐쇄형(Closed‑set) 제로샷 탐지에서는 사전에 정의된 클래스 레이블만 사용한다는 점을 이용해 텍스트 임베딩을 오프라인에서 미리 계산하고 플래시 메모리에 저장한다. 이로써 MCU에서는 시각 인코더만 실행하면 되며, 메모리 사용량이 크게 감소한다.
두 번째 핵심은 Matryoshka 임베딩을 활용한 **다중 차원 학습(Matryoshka distillation)**이다. 임베딩 차원을 16, 32, 64, 128, 256으로 계층화하고, 각 차원별 프리픽스가 독립적인 표현력을 갖도록 손실 함수를 설계한다. 구체적으로 전체 차원에 대한 대비 손실(Lcontrastive)과 차원별 대비 손실을 가중합(Lmat)하는 방식으로, 초기 차원에 핵심 정보를 압축하도록 유도한다. 결과적으로 동일 모델 하나로 다양한 메모리 제약에 맞춰 차원을 선택해 배포할 수 있다.
세 번째는 **임베딩 양자화(quantized embedding storage)**이다. 텍스트 임베딩을 32‑bit 부동소수점에서 8‑bit 정수(INT8)로 대칭 양자화하고, 스케일 파라미터만 별도 저장한다. 실험에서는 저장 용량이 4배 감소하면서 정확도 손실이 1 % 미만에 머물렀다. 이는 MCU 플래시가 수십 킬로바이트 수준으로 제한된 상황에서 매우 실용적인 최적화이다.
학습 단계에서는 CLIP ViT‑B/32(512‑dim)를 교사 모델로 두고, MobileNetV2 기반 학생 모델에 Matryoshka 임베딩을 부여한다. 교사 임베딩을 선형 프로젝션(Wproj)으로 정렬하고, MSE 손실(Lemb)과 대비 손실(Lcontrastive)을 동시에 최소화한다. 또한 차원별 대비 손실을 동일 가중치로 합산해 모든 프리픽스가 독립적인 표현을 학습하도록 만든 점이 독창적이다.
배포 최적화 측면에서는 이미지 전처리를 128×128 고정 해상도로 제한하고, INT8 양자화된 MobileNetV2를 사용해 SRAM 내 활성값을 285 KB 이하로 유지한다. STM32H7(480 MHz)에서는 전체 추론 시간이 38 ms(≈26 FPS)이며, MAX78000의 전용 CNN 가속기를 활용하면 1 000 FPS를 초과한다. 이는 기존 CLIP 기반 탐지가 요구하는 수 GB 메모리와 수백 ms 지연에 비해 획기적인 개선이다.
성능 평가에서는 COCO, Flowers102, Food101 등에서 256‑dim 모델이 CLIP‑ViT‑B/32 대비 5‑10 % 정도 낮은 정확도를 보였지만, 64‑dim 모델은 256‑dim 대비 82 % 수준을 유지하면서 메모리와 저장 용량을 각각 4배, 4배 절감했다. 또한 다양한 MCU(STM32H7, MAX78000, GAP9, ESP32‑S3)에서 실제 플래시·SRAM 사용량을 측정해 1 MB 이하에 모두 적합함을 입증했다.
결론적으로 TinyVLM은 (1) 아키텍처 분리, (2) 다중 차원 매트료시카 임베딩, (3) 8‑bit 양자화라는 세 축을 결합해, 제로샷 객체 탐지라는 고비용 AI 작업을 MCU 수준으로 끌어내렸다. 이는 향후 스마트 센서, 로봇, IoT 디바이스에서 사전 학습된 대규모 언어·시각 지식을 현장에 직접 적용할 수 있는 길을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기