마스크 이미지 모델링으로 논리적 결함을 잡아내는 LADMIM
초록
LADMIM은 마스크 이미지 모델링(MIM)과 계층적 벡터 양자화 트랜스포머(HVQ‑Trans)를 결합해, 마스크된 영역의 이산 잠재 변수 분포를 예측함으로써 구조적·논리적 이상을 동시에 탐지하는 무지도 이상 탐지 프레임워크이다. 이산 잠재 분포는 픽셀 수준의 변동에 강인해 전역적인 논리 관계를 학습하게 하며, 구조적 이상은 HVQ‑Trans의 재구성 오류, 논리적 이상은 ViT 기반 MIM 예측 오류로 평가한다. MVTecLOCO·MVTecAD 등 5개 벤치마크에서 기존 방법들을 능가하거나 동등한 성능을 보이며, 사전 학습된 세그멘테이션 모델 없이도 높은 일반화 능력을 입증한다.
상세 분석
본 논문은 기존 무지도 이상 탐지(AD) 연구가 주로 로컬 패턴에 초점을 맞추어 구조적 결함을 잘 탐지하지만, 객체 간 관계를 파악해야 하는 논리적 결함에는 한계가 있다는 점을 지적한다. 이를 해결하기 위해 저자는 마스크 이미지 모델링(MIM)과 이산 잠재 공간을 활용한 새로운 프레임워크 LADMIM을 제안한다. 핵심 아이디어는 이미지의 일부를 마스크하고, 마스크된 영역에 대한 ‘이산 잠재 변수(discrete latent)’의 확률 분포를 예측하도록 학습시키는 것이다. 이산 잠재 변수는 HVQ‑Trans라는 계층적 벡터 양자화 트랜스포머를 통해 얻으며, 이는 기존 VQ‑VAE와 달리 다중 레벨의 코드북을 사용해 코드 활용도를 높이고 ‘죽은 코드(dead code)’ 문제를 완화한다.
구조적 이상 탐지는 HVQ‑Trans가 입력 이미지를 재구성하면서 발생하는 재구성 오류를 이용한다. 재구성 과정에서 양자화된 잠재 변수를 복원하기 때문에 ID‑shortcut(입력 그대로 복원) 현상이 억제되고, 정상 이미지와 결함 이미지 사이의 재구성 차이가 명확히 드러난다. 반면 논리적 이상 탐지는 ViT 기반 MIM 모델이 마스크된 패치의 잠재 분포를 예측하는 오류를 활용한다. 마스크된 영역의 위치 정보가 사라진 상태에서 분포를 예측하도록 설계했기 때문에, 객체 간 위치 관계가 바뀌거나 부적절한 조합이 발생한 경우에도 높은 이상 점수를 부여한다.
두 탐지 모듈의 점수는 단순 가중합으로 결합되어 최종 이상 점수를 산출한다. 이때 별도의 세그멘테이션 사전학습 모델이 필요 없으며, 전체 파이프라인이 완전한 무지도 학습으로 이루어진다. 실험에서는 MVTecLOCO(논리·구조 복합)와 MVTecAD(구조 전용) 등 5개의 공개 벤치마크에 대해 기존 MIM 기반 방법, 재구성 기반 방법, 메모리뱅크 기반 방법과 비교하였다. LADMIM은 특히 논리적 결함 탐지에서 AUROC이 3~5%p 상승했으며, 구조적 결함에서도 경쟁력 있는 성능을 유지한다. 추가적인 Ablation 연구를 통해 마스크 비율, 코드북 크기, 히스토그램 예측 방식 등이 성능에 미치는 영향을 정량화하였다. 특히 히스토그램(분포) 예측이 위치‑불변성을 제공해 논리적 이상 탐지에 크게 기여함을 확인했다.
전체적으로 LADMIM은 (1) 마스크된 영역의 이산 잠재 분포 예측이라는 새로운 목표 설정, (2) HVQ‑Trans를 통한 효율적인 토크나이저 제공, (3) 구조·논리 이상을 통합적으로 탐지하는 두 단계 설계라는 세 가지 기술적 기여를 제시한다. 이러한 설계는 기존 재구성‑단축 문제를 회피하고, 메모리뱅크 의존성을 낮추며, 대규모 모델 확장에도 강인한 구조를 제공한다는 점에서 향후 무지도 시각 검사 분야의 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기