반도체 웨이퍼 결함 탐지를 위한 데이터 효율 이미지 트랜스포머 비교 연구

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 데이터가 제한되고 클래스 불균형이 심한 WM‑811k 웨이퍼 맵 데이터셋에서, 기존 CNN(VGG‑19, Xception, SqueezeNet) 대비 Data‑Efficient Image Transformer(DeiT)의 분류 성능을 평가한다. 실험 결과 DeiT가 정확도 90.83%, F1‑score 90.78%를 기록하며 모든 CNN을 능가했으며, 특히 소수 클래스에 대한 강인성을 보였다.

상세 분석

본 논문은 반도체 제조 공정의 예측 유지보드(PdM) 관점에서 웨이퍼 결함 맵을 자동 분류하는 모델을 비교한다. 데이터는 공개된 WM‑811k 증강·전처리 데이터셋을 사용했으며, 9개의 결함 유형(센터, 도넛, 엣지‑로컬, 엣지‑링, 로컬, Near‑Full, 랜덤, 스크래치, None)으로 균형 있게 구성하였다. 기존 연구에서는 VGG‑19, ResNet, DenseNet 등 대형 CNN을 전이학습하거나 경량화된 SqueezeNet을 적용했지만, 데이터가 제한될 경우 과적합과 클래스 불균형 문제에 취약함을 지적한다.

DeiT는 Vision Transformer(ViT)의 경량화 버전으로, 학습 효율성을 높이기 위해 distillation token과 데이터 효율적인 self‑attention 구조를 채택한다. 논문에서는 DeiT와 4개의 CNN(VGG‑19, Xception, SqueezeNet, Hybrid) 및 자체 구현 하이브리드 모델을 동일한 학습/검증/테스트 분할에서 비교하였다. 평가 지표는 정확도, 정밀도, 재현율, F1‑score, 혼동 행렬이며, 다중 클래스 상황에서 macro‑averaging을 적용해 클래스 불균형 영향을 최소화하였다.

실험 결과, DeiT는 전체 정확도 90.83%와 F1‑score 90.78%를 달성했으며, 특히 소수 클래스(예: 도넛, 엣지‑링, 스크래치)에서 높은 재현율을 보였다. 반면 VGG‑19는 65% 수준, Xception은 66%, SqueezeNet은 82%에 머물렀다. Hybrid 모델은 67%로 미미한 향상만 보였다. 학습 곡선을 살펴보면 DeiT는 10 epoch 내에 손실이 급격히 감소하고 안정적인 검증 정확도를 유지했으며, CNN은 더 많은 epoch과 높은 학습 시간(특히 VGG‑19의 0.263 s/step)으로 수렴 속도가 느렸다.

또한, 혼동 행렬 분석에서 DeiT는 대부분의 클래스에서 대각선 비율이 높아 오분류가 적었으며, 특히 ‘None’(결함 없음)과 ‘Near‑Full’ 같은 대형 클래스뿐 아니라 ‘Scratch’와 같은 희소 클래스에서도 높은 정확도를 유지했다. 이는 self‑attention이 전역적인 패턴을 효과적으로 포착하고, 데이터 효율적인 학습이 과적합을 방지함을 시사한다.

한계점으로는 데이터셋이 여전히 인공적으로 증강된 점, 실제 생산 라인에서의 실시간 추론 성능 검증이 부족한 점, 그리고 Transformer 기반 모델의 하드웨어 요구사항(메모리, 연산량) 논의가 미흡한 점을 들 수 있다. 향후 연구에서는 실시간 스트리밍 데이터에 대한 온라인 학습, 경량화된 ViT 변형(예: Tiny‑ViT) 적용, 그리고 FPGA/ASIC 구현을 통한 추론 효율성 평가가 필요하다.

전반적으로 본 논문은 제한된 데이터 환경에서 Transformer 기반 모델이 CNN을 대체할 수 있음을 실증적으로 보여주며, 반도체 웨이퍼 결함 탐지 분야에서 데이터 효율적인 Vision Transformer의 적용 가능성을 크게 확장한다.

반도체 웨이퍼 결함 탐지를 위한 데이터 효율 이미지 트랜스포머 비교 연구

초록

상세 분석

댓글 및 학술 토론

의견 남기기