방향 강인성을 갖춘 딥 클러스터링 DECOR

방향 강인성을 갖춘 딥 클러스터링 DECOR
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DECOR는 회전·대칭 변형에 강인한 자동인코더(RCAE)를 이용해 웨이퍼 맵을 저차원 임베딩으로 변환하고, 비모수적 Dirichlet Process 기반 클러스터링(DeepDPM)으로 자동 군집 수를 추정한다. 클러스터별 Isolation Forest와 Local Outlier Factor를 결합한 앙상블 탐지기로 이상 패턴을 식별한다. MixedWM38 데이터셋 실험에서 NMI·ARI 모두 기존 K‑Means·DBSCAN 등 대비 우수한 성능을 보이며, 회전된 동일 결함을 하나의 클러스터에 일관되게 매핑한다.

상세 분석

본 논문은 반도체 웨이퍼 검사에서 흔히 마주치는 ‘라벨이 없고, 불균형하며, 다중 결함이 혼재된’ 데이터를 대상으로, 기존 클러스터링이 갖는 고정 파라미터(클러스터 수 K, 거리 임계값 ε 등)와 회전·플립에 대한 민감성을 극복하고자 한다. 핵심 아이디어는 세 단계로 구성된 파이프라인이다. 첫 번째 단계는 회전·대칭 불변성을 내재한 R2Conv 기반 회전·플립-equivariant 블록을 3계층 쌓아 만든 RCAE(Rotation‑and‑Flip‑Invariant Convolutional AutoEncoder)이다. 각 블록은 D4(4방향 회전)와 두 개의 미러 플립을 고려한 그룹 컨볼루션을 수행하고, GroupPooling을 통해 방향 채널을 평균화함으로써 128‑차원의 고정 길이 임베딩을 얻는다. 재구성 손실(MSE)과 함께 학습함으로써 구조적 정보를 보존하면서도 회전·플립에 무관한 표현을 학습한다.

두 번째 단계는 비모수적 클러스터링 모델인 DeepDPM을 적용한다. DeepDPM은 Dirichlet Process Mixture Model을 딥러닝 기반 MLP(128→50→K)와 결합해, 데이터 자체가 제시하는 클러스터 수를 자동으로 추정한다. Soft assignment 확률을 출력하고, argmax를 통해 hard label을 얻는다. 이 접근법은 K‑Means와 달리 사전에 K를 지정할 필요가 없으며, 클러스터 간 경계가 흐릿하거나 겹치는 경우에도 적절히 클러스터를 분할·합병한다.

세 번째 단계는 클러스터별 이상치 탐지이다. Isolation Forest는 전역적인 ‘분리’ 개념을, Local Outlier Factor는 지역 밀도 차이를 활용한다. 두 알고리즘의 점수를 각각 Median + k·MAD(중위수 절대 편차) 방식으로 임계값을 정하고, 양쪽 모두 이상치로 판단될 때만 최종 라벨을 부여한다. 이는 개별 알고리즘이 갖는 과잉 탐지·과소 탐지 문제를 상쇄시켜, 희귀하지만 의미 있는 결함을 높은 정밀도로 포착한다.

실험에서는 공개된 MixedWM38 데이터셋(38 k+ 이미지, 38가지 결함 조합)으로 평가하였다. 데이터는 128×128로 리사이즈하고, 정규화·엣 마스킹·가우시안 블러 전처리를 적용했다. RCAE와 DeepDPM을 결합한 DECOR는 NMI 0.543 ± 0.03, ARI 0.296 ± 0.00을 기록했으며, 동일 조건의 CAE·MoCo 기반 클러스터링보다 일관되게 우수했다. 특히 회전·플립된 동일 결함이 서로 다른 클러스터에 흩어지는 현상이 크게 감소했으며, 2D/3D 투영 시 클러스터 간 간격이 뚜렷해 시각적으로도 검증 가능했다.

연산 측면에서는 RCAE 1000 epoch 학습에 약 6시간, DeepDPM 200 epoch 학습에 2시간 정도 소요돼 전체 GPU 사용량은 약 30 GPU‑hour 수준이다. 모델 크기도 경량(파라미터 수 수백만 이하)이라 실시간 검사 라인에 적용 가능성이 높다. 한계점으로는 초기 클러스터 수 k_init과 학습 epoch 수를 경험적으로 설정해야 한다는 점, 그리고 다중 라벨 특성 때문에 NMI·ARI를 단일 라벨로 변환해 평가해야 하는 점을 들었다. 향후 다중 라벨 전용 클러스터링 지표 개발 및 시계열 클러스터링을 통한 결함 진화 추적을 계획하고 있다.

요약하면, DECOR는 회전·플립 불변 임베딩, 비모수적 클러스터링, 앙상블 이상치 탐지를 유기적으로 결합해, 반도체 웨이퍼 검사에서 요구되는 ‘라벨 없음·다중 결함·동적 변동’이라는 세 가지 난제를 동시에 해결한다는 점에서 학술적·산업적 의의가 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기