협업 재구성·복구 기반 다중 클래스 산업 이상 탐지
초록
본 논문은 다중 클래스 산업 이상 탐지(MIAD)에서 발생하는 디코더의 정체성 매핑 문제를 해결하기 위해, 정상 이미지 재구성과 합성 이상 복구를 동시에 학습하는 Collaborative Reconstruction and Repair(CRR) 프레임워크를 제안한다. 랜덤 피처 마스킹으로 지역 정보를 강화하고, 엔코더·디코더 특징 차이를 활용한 세그멘테이션 네트워크를 통해 정밀한 결함 위치를 예측한다. MVTec‑AD, VisA, Real‑IAD 등 3대 벤치마크와 실제 산업 데이터(HSS‑IAD)에서 최첨단 성능을 달성한다.
상세 분석
CRR은 기존 재구성 기반 방법이 디코더가 입력을 그대로 복제하는 정체성 매핑(identity mapping) 현상에 빠지는 문제를 근본적으로 재구성‑복구(collaborative reconstruction‑repair) 개념으로 전환한다. 구체적으로, 사전 학습된 엔코더는 정상 이미지에서 특징을 추출하고, 이 특징은 디코더 학습의 정답 레이블 역할을 한다. 정상 이미지에 합성된 이상(Perlin 노이즈와 텍스처를 이용한 DRAEM 방식)과 랜덤 마스크를 동시에 적용함으로써 디코더는 두 가지 목표를 수행한다. 첫째, 정상 영역에 대해서는 엔코더와 동일한 특징을 재구성하도록 학습한다(재구성 손실). 둘째, 합성된 이상 영역에 대해서는 정상 특징으로 “복구”하도록 강제한다(복구 손실). 이때 복구 손실은 정상 이미지와 동일한 특징 공간으로 매핑되는 것을 목표로 하며, 이는 디코더가 이상을 정상으로 변환하도록 유도한다.
피처 레벨 랜덤 마스킹은 디코더가 주변 컨텍스트만을 이용해 손실된 정보를 복원하도록 만들며, 미세한 결함을 포착하는 데 필수적인 지역 정보를 보존한다. 마스크는 엔코더 출력에 적용되고, 마스크된 위치는 디코더가 추론해야 하는 목표가 된다. 이렇게 함으로써 디코더는 전역적인 재구성 능력뿐 아니라 국소적인 복원 능력도 동시에 학습한다.
엔코더와 디코더의 출력은 정규화 후 요소별 곱(element‑wise product)으로 결합되고, 다중 레벨 특징을 포함한 컨케티네이션을 통해 세그멘테이션 네트워크에 입력된다. 세그멘테이션 네트워크는 합성 이상 마스크를 지도 신호로 사용해 학습되며, 실제 테스트 시에는 엔코더·디코더 간 특징 차이를 기반으로 이상 영역을 픽셀 수준에서 예측한다. 이 구조는 기존 지식 증류 기반 방법이 겪는 학생‑교사 간 과도한 일반화(over‑generalization)를 완화하고, 정체성 매핑으로 인한 특징 유사성을 효과적으로 억제한다.
실험 결과는 세 가지 주요 벤치마크에서 AUROC, AUPRO, pixel‑level IoU 등 다양한 지표에서 기존 최첨단 방법(DiAD, UniAD, MambaAD 등)을 크게 앞선다. 특히, 복합적인 클래스 분포를 가진 MIAD 설정에서 CRR은 동일 모델 내에서 클래스 간 일반화를 유지하면서도 개별 클래스별 결함 탐지 정확도를 유지한다는 점이 주목할 만하다. 또한, 실제 산업 현장 데이터(HSS‑IAD)에서도 높은 검출률과 낮은 오탐률을 기록, 실용적 적용 가능성을 입증한다.
요약하면, CRR은 (1) 정상‑재구성 + 합성‑복구라는 이중 학습 목표, (2) 피처 레벨 랜덤 마스킹을 통한 지역 정보 강화, (3) 엔코더·디코더 특징 차이를 활용한 세그멘테이션 네트워크 결합이라는 세 축을 통해 정체성 매핑 문제를 근본적으로 해결하고, 다중 클래스 산업 이상 탐지에서 새로운 성능 기준을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기