텍스트‑비전 연계 프롬프트로 다중 클래스 시각 이상 탐지와 정밀 위치 추정

텍스트‑비전 연계 프롬프트로 다중 클래스 시각 이상 탐지와 정밀 위치 추정
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PromptMAD는 CLIP 기반 텍스트 프롬프트와 시각 특징을 결합해 다중 클래스 이상 탐지를 수행한다. 교차 모달 프롬프트와 Focal loss, 그리고 Diffusion 기반 세그멘터를 도입해 미세하고 위장된 결함을 고해상도로 정확히 위치시킨다. MVTec‑AD 실험에서 픽셀‑레벨 AUC 98.35 %와 AP 66.54 %를 달성하였다.

상세 분석

PromptMAD는 기존의 단일 모달 재구성 기반 이상 탐지 한계를 극복하기 위해 세 가지 핵심 기술을 통합한다. 첫째, CLIP의 텍스트 인코더를 이용해 클래스별 정상·비정상 특성을 서술한 프롬프트를 생성하고, 이를 시각 백본(EfficientNet‑B4)에서 추출한 멀티스케일 특징과 요소별(element‑wise)로 결합한다. 이 교차‑모달 프롬프트는 텍스트와 이미지 사이의 사전 학습된 정렬 정보를 활용해, 특히 텍스처가 복잡하거나 결함이 위장된 경우에도 시각적 신호만으로는 구분이 어려운 미세한 이상을 강조한다. 둘째, 픽셀‑레벨 클래스 불균형을 완화하기 위해 Focal loss를 도입한다. 일반적인 MSE·Dice 손실은 모든 픽셀을 동일하게 취급해 희소한 이상 픽셀의 기여를 희석시키지만, Focal loss는 (1‑pt)^γ · BCE 형태로 어려운(예측 확률이 낮은) 픽셀에 가중치를 부여해 학습 초기에 이상 영역을 더 강하게 학습하도록 유도한다. 셋째, 재구성 오류 맵을 입력으로 하는 고성능 세그멘터를 설계했다. 이 세그멘터는 (1) 다중‑스케일 Residual CNN, (2) Transformer 기반 전역‑자기‑주의 메커니즘, (3) 10 단계의 Diffusion 디노이징 과정을 결합한다. Diffusion 모듈은 시계열 β 스케줄과 sinusoidal timestep embedding을 사용해 초기 오류 맵을 점진적으로 정제하고, CLIP 텍스트 임베딩을 조건으로 삽입함으로써 경계선의 정밀도를 크게 향상시킨다. 전체 파이프라인은 OneNIP을 베이스라인으로 하여 추가적인 연산량이 크지 않으며, 실험 결과 5.2 ms/샘플(193 FPS)으로 실시간 적용이 가능함을 보여준다.
실험에서는 MVTec‑AD 15개 클래스 전반에 걸쳐 평균 픽셀‑AUC를 0.54 %p, AP를 3.02 %p 상승시켰으며, 특히 텍스처가 풍부한 pill, hazelnut, tile 등에서 큰 개선을 보였다. Ablation 연구는 각 구성 요소의 독립적 효과를 확인했으며, 특히 텍스트‑비전 프롬프트와 Diffusion 세그멘터의 결합이 가장 큰 시너지 효과를 냈다. 한계점으로는 텍스트 프롬프트가 수작업으로 정의된다는 점과, 매우 얇은 결함에 대해 여전히 오탐이 발생할 가능성이 있다는 점을 들 수 있다. 향후 자동 프롬프트 생성 및 경량 Diffusion 설계가 연구 과제로 남는다.


댓글 및 학술 토론

Loading comments...

의견 남기기