확산 기반 레이어별 의미 재구성을 통한 무감독 OOD 탐지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 확산 모델의 복원 능력을 활용해 다중 레이어 의미 특징을 왜곡·복원함으로써 ID와 OOD 데이터를 구분한다. 다층 특징 추출, 가우시안 노이즈 주입, 라티언트 피처 디퓨전 네트워크(LFDN) 기반 복원 과정을 통해 재구성 오류를 OOD 점수로 사용한다. 실험 결과, 기존 방법 대비 정확도와 추론 속도 모두에서 최고 성능을 달성하였다.

상세 분석

**
이 연구는 무감독 OOD 탐지에서 “재구성 기반” 접근법의 핵심 딜레마—재구성 능력과 ID 특성 압축 사이의 트레이드오프—를 확산 모델(Diffusion Model)을 통해 해결한다. 기존 자동인코더(AE)나 VAE, GAN 등은 재구성 품질을 높이면 latent 공간이 넓어져 ID와 OOD를 구분하기 어려워지는 문제가 있었다. 반면, 확산 모델은 노이즈를 단계적으로 제거하는 과정에서 강력한 복원 능력을 보이며, 동일 모델이 다양한 노이즈 레벨을 처리할 수 있다는 점이 큰 장점이다.

논문은 먼저 EfficientNet 기반 인코더에서 여러 레이어(저‑중‑고 수준)의 특징 맵을 추출하고, 전역 평균 풀링 후 Z‑score 정규화를 거쳐 1‑차원 벡터로 변환한다. 이렇게 얻은 다층 특징을 하나의 긴 벡터 z₀ 에 concatenation함으로써 “다층 의미 표현”을 만든다. 이후 각 차원에 가우시안 노이즈 ε 를 αₜ에 따라 가중해 zₜ =√αₜ·z₀+√(1−αₜ)·ε 로 왜곡한다.

핵심 복원 모듈인 Latent Feature Diffusion Network(LFDN)는 16개의 ResBlock으로 구성되며, 각 블록은 GroupNorm‑SiLU‑Linear 구조와 시간 임베딩을 흡수하는 MLP를 포함한다. DDIM(Deterministic Diffusion Implicit Model) 방식을 차용해, 무작위 stride s 를 사용해 zₜ → z₀ 까지 역전파한다. 이 과정에서 모델은 현재 시점 t 의 노이즈 추정 ε̂ₜ 를 계산하고, 이를 기반으로 다음 시점 t′=max(t−s,0) 의 입력을 재구성한다. 반복적으로 노이즈를 정제하면서 최종 복원된 특징 ẑ₀ 를 얻는다.

학습 목표는 단순 MSE L=‖z₀−LFDN(zₜ,t)‖²이며, t 는 매 배치마다 무작위로 선택된다. 이렇게 훈련된 LFDN은 ID 데이터에 대해서는 낮은 재구성 오류를, OOD 데이터에 대해서는 높은 오류를 보인다. 논문은 오류 기반(MSE), Likelihood Regret(LR), 그리고 복합 점수 세 가지를 OOD 스코어로 제안한다.

실험에서는 CIFAR‑10/100, SVHN, ImageNet‑30 등 다양한 벤치마크에 대해 AUROC, AUPR, FPR95 등을 측정했으며, 기존 확산 기반 픽셀‑레벨 재구성 방법보다 2~5% 정도의 AUROC 향상을 기록했다. 또한, 라티언트 공간에서 작동하기 때문에 픽셀‑레벨 디퓨전보다 연산량이 30% 이상 감소해 실시간 적용 가능성을 확보했다.

이 논문의 주요 기여는 (1) 라티언트 피처 수준에서 확산 모델을 최초로 적용한 OOD 탐지 프레임워크, (2) 다층 의미 특징을 이용해 ID 특성을 더욱 압축·구분 가능하게 만든 점, (3) 높은 정확도와 빠른 추론 속도를 동시에 달성한 실증적 증거이다. 향후 연구는 다른 백본(예: ViT)과 결합하거나, 비정형 데이터(시계열, 텍스트)에도 확장하는 방향으로 진행될 수 있다.

확산 기반 레이어별 의미 재구성을 통한 무감독 OOD 탐지

초록

상세 분석

댓글 및 학술 토론

의견 남기기