다중클래스 소수샷 이상 탐지를 위한 양방향 멀티모달 프롬프트 학습과 스케일 인식 훈련
초록
AnoPLe는 클래스 이름만을 텍스트 프롬프트로 사용하고, 시각 프롬프트와 텍스트 프롬프트를 양방향으로 상호작용시켜 클래스‑조건부 정상 패턴을 학습한다. 전역·국부 뷰를 이용한 스케일‑인식 프리픽스와 정합 손실을 도입해 픽셀‑레벨 로컬라이제이션을 강화한다. 별도 이상 설명이나 외부 모듈 없이도 MVTec‑AD, VisA, Real‑IAD 등에서 소수샷 다중클래스 설정의 AUROC와 PRO를 크게 향상시킨다.
상세 분석
본 논문은 산업 현장에서 흔히 마주치는 “소수샷 다중클래스 이상 탐지(Few‑shot MCAD)” 문제를 해결하기 위해, 기존 VLM 기반 방법이 갖는 두 가지 한계를 극복한다. 첫째, 클래스별 이상 설명(anomaly description)에 의존하는 템플릿 방식은 설명이 부정확하거나 존재하지 않을 경우 텍스트‑이미지 정렬이 왜곡돼 성능이 급락한다. 둘째, Q‑Former와 같은 무거운 외부 모듈을 도입하면 추론 비용이 크게 증가한다. AnoPLe는 이러한 문제를 “텍스트‑시각 프롬프트의 양방향 상호작용”이라는 핵심 아이디어로 해결한다.
텍스트 프롬프트는 클래스 이름을 그대로 사용하고, 통합된 ‘abnormal’ 토큰을 추가해 비정상성에 대한 거친 사전 지식을 제공한다. 시각 프롬프트는 이미지 패치와 함께 학습 가능한 컨텍스트 벡터를 앞에 붙여, 인스턴스‑레벨의 미세 변화를 직접 캡처한다. 양쪽 프롬프트는 각각 다른 차원(d_t, d_v)을 갖지만, 선형 변환 f_{v→t}와 f_{t→v}를 통해 서로의 임베딩 공간에 투사된다. 각 레이어마다
댓글 및 학술 토론
Loading comments...
의견 남기기