시각언어 모델 기반 열린 세계 객체 탐지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존의 개방형 어휘 객체 탐지(OVD) 한계를 넘어, 멀리 떨어진 OOD(FOOD) 객체와 근접 OOD(NOOD) 객체를 동시에 식별하고, 새로운 클래스가 등장할 때마다 재학습 없이 텍스트 임베딩만 업데이트하는 열린 세계 객체 탐지 프레임워크를 제안한다. 핵심 기법으로는 알려진 클래스 임베딩을 기반으로 만든 ‘가짜 미지 임베딩’과 다중 스케일 대비 앵커 학습(MSCAL)이 있다. 실험 결과, 제안 방법은 표준 OWOD 벤치마크와 자율주행 데이터셋에서 최첨단 성능을 달성한다.

상세 분석

이 연구는 비전‑언어 사전학습 모델, 특히 CLIP과 같은 텍스트‑이미지 쌍을 정렬한 구조를 활용한다는 점에서 의미가 크다. 기존 OVD는 프롬프트만 교체하면 새로운 클래스를 제로샷으로 탐지할 수 있지만, 프롬프트가 정확하지 않으면 근접 OOD 객체를 오분류하거나 멀리 떨어진 OOD 객체를 전혀 탐지하지 못한다는 근본적인 문제를 안고 있다. 논문은 이를 해결하기 위해 두 가지 혁신적인 메커니즘을 도입한다. 첫 번째는 ‘Pseudo Unknown Embedding(가짜 미지 임베딩)’이다. 알려진 클래스 임베딩들의 평균 w와 일반 객체성을 나타내는 임베딩 w₀ 사이의 벡터 차이를 α 스케일링하여 w_U = w₀ – α·w 로 정의한다. 이 임베딩은 테스트 시점에 동적으로 생성되며, 새로운 클래스가 추가될 때마다 평균이 변함에 따라 자동으로 위치가 조정된다. 따라서 기존 클래스와 겹치지 않는 영역을 효과적으로 커버한다. 두 번째는 MSCAL이다. 각 알려진 클래스 i마다 비선형 프로젝터 g_i를 두어 피처 피라미드 P를 클래스‑특화 저차원 공간 Z_i 로 매핑한다. 여기서 클래스 앵커 μ_i와 양성 샘플(z∈Z_i⁺) 사이의 내적을 최대화하고, 다른 클래스와 배경 샘플(z∈Z_i⁻)과는 최소화하도록 대비 손실 L_con을 설계한다. 다중 스케일(피라미드 레이어 p)에서 동일한 손실을 적용함으로써, 서로 다른 해상도에서도 클래스 내부 일관성을 유지하고, 미지 객체는 앵커와의 거리가 크게 늘어나 OOD 스코어가 높게 나오게 된다. 학습 단계에서는 알려진 클래스 임베딩 W_K를 탐지 손실과 MSCAL 손실을 동시에 최적화하고, 새로운 클래스가 등장하면 기존 W_K와 MSCAL 모듈을 고정한 채 새로운 임베딩과 새로운 MSCAL 모듈만 학습한다. 이렇게 하면 과거 데이터의 재현(replay) 없이도 재학습 시 catastrophic forgetting을 방지한다. 실험에서는 M‑OWODB, S‑OWODB, 그리고 nuScenes 기반 자율주행 벤치마크에서 U‑Recall, mAP 등 주요 지표에서 기존 최첨단 방법들을 크게 앞선다. 특히, 제안된 Pseudo Unknown Embedding은 FOOD 객체를 높은 재현율로 탐지하고, MSCAL은 NOOD 객체를 기존 클래스와 구분하는 데 큰 효과를 보인다. 전체 파이프라인은 YOLO‑World의 구조를 그대로 사용하면서 텍스트 임베딩과 MSCAL 모듈만 추가하므로, 기존 OVD 모델의 가중치를 동결한 채 zero‑shot 능력을 유지한다.

시각언어 모델 기반 열린 세계 객체 탐지

초록

상세 분석

댓글 및 학술 토론

의견 남기기