산업용 결함 탐지를 위한 듀얼 도메인 디노이징 재구성 네트워크 D3R Net

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

D3R-Net은 정상 이미지에 인위적인 결함을 주입해 복원하도록 학습하는 셀프‑슈퍼바이즈드 디노이징 방식을 채택하고, 재구성 손실에 FFT 기반 주파수 스펙트럼 손실을 추가해 고주파 디테일을 보존한다. 경량 컨볼루션 오토인코더를 사용해 20 FPS 수준의 실시간 추론을 달성하면서, MVTec AD 전반에 걸쳐 픽셀‑ROC AUC와 PRO AUC를 기존 MSE‑기반 베이스라인보다 유의미하게 향상시킨다.

상세 분석

D3R-Net은 기존 재구성 기반 비지도 결함 탐지 모델이 고주파 디테일을 흐리게 만드는 문제를 두 가지 축으로 해결한다. 첫 번째는 ‘힐링(healing)’이라는 셀프‑슈퍼바이즈드 과제를 도입해, 정상 이미지에 랜덤한 사각형 결함(고정값 occlusion, 가우시안 노이즈, 외부 패치 혼합)을 삽입하고 이를 원본 이미지로 복원하도록 학습한다. 이 과정은 모델이 단순히 입력을 그대로 복제하는 아이덴티티 매핑을 피하게 하며, 정상 텍스처의 분포를 보다 정확히 학습하도록 강제한다. 두 번째는 손실 함수에 주파수 영역 손실을 추가한다. 채널별 2‑D FFT를 수행해 magnitude 스펙트럼을 얻고, 복원 이미지와 원본 이미지의 magnitude 차이에 L1 손실을 적용한다. 로그 스케일 대신 원시 magnitude를 사용함으로써 고주파 성분에 대한 민감도를 유지하고, 저주파와 고주파 사이의 스케일 차이를 정규화된 FFT(orthonormal)로 보정한다. 선택적으로 SSIM 손실을 가중치 0으로 두어 ablation을 수행했으며, 실험에서는 FFT 손실만이 가장 큰 성능 향상을 제공한다. 네트워크 구조는 4개의 다운샘플링 블록과 4개의 업샘플링 블록으로 구성된 경량 컨볼루션 오토인코더이며, skip connection을 배제해 파라미터 수를 1‑2 M 정도로 제한한다. 학습은 각 배치마다 on‑the‑fly로 결함을 주입해 메모리 효율성을 높이고, 다양한 결함 패턴을 경험하게 함으로써 과적합 위험을 감소시킨다. 테스트 시에는 결함이 없는 원본 이미지를 그대로 입력하고, 입력과 재구성 간 차이를 픽셀‑레벨 이상점수로 사용한다. 이미지‑레벨 점수는 최대값 등 간단한 풀링으로 추출한다. 실험은 MVTec AD 15개 카테고리에 대해 개별 모델을 학습·평가했으며, Hazelnut 카테고에서 PRO AUC가 0.603→0.687로 14 %p 상승했고, 전체 평균 픽셀‑ROC AUC는 0.733→0.751, PRO AUC는 0.417→0.468으로 개선되었다. 추론 속도는 단일 GPU에서 약 20 FPS를 기록해 실시간 산업 현장 적용이 가능함을 보여준다. 이와 같이 D3R-Net은 복잡한 사전학습 백본이나 대용량 메모리 풀(pool)을 필요로 하지 않으면서, 고주파 디테일 보존과 효율적인 학습을 동시에 달성한다는 점에서 실용적인 대안으로 평가된다.

산업용 결함 탐지를 위한 듀얼 도메인 디노이징 재구성 네트워크 D3R Net

초록

상세 분석

댓글 및 학술 토론

의견 남기기