YOLOE‑26: 실시간 오픈보카뷸러리 인스턴스 분할을 위한 YOLOv26·YOLOE 통합 모델

YOLOE‑26: 실시간 오픈보카뷸러리 인스턴스 분할을 위한 YOLOv26·YOLOE 통합 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

YOLOE‑26은 최신 NMS‑free YOLOv26 백본에 오픈보카뷸러리 학습 방식을 도입한 YOLOE 구조를 결합한 통합 프레임워크이다. 고정 클래스 로짓을 객체 임베딩 헤드로 대체하고, 텍스트·시각 프롬프트·프롬프트‑프리 3가지 모드를 동일한 임베딩 공간에서 매칭함으로써 실시간 인스턴스 분할을 가능하게 한다. RepRTA, SAVPE, Lazy Region Prompt Contrast 등 경량화된 정렬·인코딩 모듈을 통해 추론 비용을 최소화하고, 다중 스케일 PAN/FPN 피처 집합과 프로토타입 기반 마스크 헤드를 유지한다. 대규모 검출·그라운딩 데이터로 멀티태스크 학습한 결과, 다양한 모델 크기에서 정확도‑속도 균형이 뛰어나며, Edge 디바이스에서도 실시간(>30 FPS) 동작이 검증되었다.

상세 분석

YOLOE‑26은 YOLOv26이 제시한 NMS‑free, 엔드‑투‑엔드 파이프라인을 기반으로, 기존 YOLO 시리즈가 갖고 있던 “고정 클래스” 한계를 극복하기 위해 객체 임베딩 헤드를 도입하였다. 이 헤드는 각 앵커 포인트마다 D 차원의 시멘틱 벡터 O∈ℝN×D를 출력하고, 텍스트 프롬프트, 시각 프롬프트, 혹은 사전 정의된 어휘집에서 추출한 프롬프트 임베딩 P∈ℝC×D와 내적을 수행해 유사도 행렬을 만든다. 따라서 새로운 카테고리를 추가하려면 텍스트 설명이나 몇 장의 예시 이미지만 제공하면 되며, 모델 자체를 재학습할 필요가 없다.

효율성을 위해 제안된 세 가지 핵심 모듈이 있다. 첫째, RepRTA(Re‑Parameterizable Region‑Text Alignment)는 학습 시 경량 컨볼루션 네트워크 fθ를 이용해 텍스트 임베딩을 시각 피처와 정렬한다. 학습이 끝나면 fθ의 파라미터를 기존 컨볼루션 커널에 병합(Re‑parameterization)함으로써 추론 시 추가 연산이 전혀 발생하지 않는다. 둘째, SAVPE(Semantic‑Activated Visual Prompt Encoder)는 트랜스포머 대신 두 개의 작은 CNN 브랜치를 사용한다. 하나는 프롬프트‑무관한 시멘틱 피처를 추출하고, 다른 하나는 바운딩 박스·마스크 등 시각 프롬프트를 기반으로 가중치를 생성한다. 두 브랜치를 곱해 최종 시각 프롬프트 임베딩을 만들며, 이는 객체 임베딩 헤드와 동일한 차원으로 매핑된다. 셋째, Lazy Region Prompt Contrast는 프롬프트 없이도 객체 임베딩 자체를 클러스터링해 유사도 기반 라벨을 추정한다. 이 과정은 학습 중에 대비 손실(Lazy Contrast Loss)만 추가되고, 추론 시 별도 연산이 필요하지 않다.

아키텍처 측면에서 YOLOE‑26은 기존 YOLOv26의 PAN/FPN 스타일 네크를 그대로 사용한다. 다중 스케일 피처(P3‑P5)를 상하향으로 융합해 작은 객체와 큰 객체 모두에 충분한 공간·시멘틱 정보를 제공한다. 회귀 헤드와 프로토타입 기반 마스크 헤드는 YOLO 시리즈에서 검증된 설계대로 유지되며, 마스크 프로토타입 수와 차원은 모델 크기에 따라 조정된다.

학습 전략은 두 단계로 구성된다. ① 대규모 COCO‑style 검출 데이터와 Grounding‑DINO, GLIP 등에서 추출한 이미지‑텍스트 쌍을 이용해 객체 임베딩과 텍스트 임베딩을 동시에 정렬한다. ② 시각 프롬프트(예: 몇 장의 샘플 이미지)와 마스크 라벨을 사용해 SAVPE와 마스크 헤드를 미세조정한다. 멀티태스크 손실은 회귀(L1+IoU), 마스크(BCELoss), 임베딩(Contrastive Loss), 프롬프트 정렬(RepRTA Loss) 등을 가중합한다.

실험 결과는 세 가지 프롬프트 모드 모두에서 기존 YOLOE와 비교해 mAP@0.5‑0.95가 24%p 상승했으며, 추론 지연은 12 ms 정도만 증가했다. 특히 Edge GPU(T4)와 모바일 CoreML(iPhone 12) 환경에서 30 FPS 이상을 유지해 실시간 적용 가능성을 입증했다. 모델 스케일링 실험에서는 작은 YOLOE‑26‑s부터 대형 YOLOE‑26‑x까지, 파라미터 수와 FLOPs가 증가함에 따라 정확도는 거의 선형적으로 상승했지만, latency는 NMS‑free 설계 덕분에 비례적으로 크게 늘지 않았다.

요약하면, YOLOE‑26은 고성능 실시간 검출·분할 파이프라인에 오픈보카뷸러리 능력을 경량화된 모듈로 자연스럽게 삽입함으로써, 기존 YOLO 계열이 갖던 배포 용이성·결정론적 추론을 유지하면서도 “보는 것만으로도 무엇이든 인식한다”는 목표를 실현한다.


댓글 및 학술 토론

Loading comments...

의견 남기기