Catalyst OOD 탐지를 위한 탄력적 스케일링
초록
본 논문은 기존 OOD 탐지 방법이 로그잇이나 GAP 후의 피처 벡터에만 의존해 정보 손실을 초래한다는 점을 지적하고, 마지막 풀링 전 단계의 채널별 통계(평균, 표준편차, 최대값)를 이용해 입력에 따라 동적으로 스케일링 팩터 γ를 계산한다. γ를 기존 OOD 점수와 곱해 “탄력적 스케일링”을 적용하면 ID와 OOD 사이의 분포 차이가 크게 확대되어, Energy, ReAct, SCALE 등 다양한 사후(post‑hoc) 방법에 쉽게 결합할 수 있다. CIFAR‑10/100 및 ImageNet 실험에서 평균 FPR95를 각각 32.87 %, 27.94 %, 22.25 % 감소시키는 등 현존 최고 성능을 달성한다.
상세 분석
Catalyst는 기존 OOD 탐지 파이프라인에서 간과되던 “pre‑pooling” 단계의 채널별 통계 정보를 활용한다는 점에서 혁신적이다. ResNet‑50과 같은 모델의 마지막 컨볼루션 블록은 n 개의 채널을 갖는 k × k 특성 맵 g(x)를 생성한다. GAP를 거치면 각 채널의 평균 µ(x)만 남게 되지만, 채널 내부의 변동성(σ(x))과 최고 활성화(m(x))는 사라진다. 논문은 이 세 통계가 OOD 샘플에서 종종 극단값을 보이며, 이를 그대로 사용하면 스케일링 팩터가 과도하게 왜곡될 위험이 있음을 지적한다. 이를 해결하기 위해 각 통계값을 상한 c 로 클리핑한 뒤, 모든 채널에 대해 합산해 γ(x)=∑ᵢ \bar{f}_i(x) 를 정의한다. γ는 입력마다 달라지는 스칼라이며, 기존 점수 S(x;θ)와 곱셈(γ·S) 혹은 덧셈(γ+S)으로 결합한다. 저자는 곱셈 방식이 하이퍼파라미터 민감도가 낮고, 점수 분포를 탄력적으로 확장해 ID‑OOD 경계가 명확해진다고 주장한다.
실험에서는 Energy 점수를 기본으로 삼아 Catalyst만 적용한 경우와, ReAct·SCALE 등과 결합한 경우를 모두 평가한다. CIFAR‑10/100에서 ResNet‑18을 사용했을 때, Catalyst + ReAct 조합은 FPR95를 13.19 %까지 낮추어 기존 최고 성능을 14 % 이상 개선한다. ImageNet‑1k에서 ResNet‑50을 대상으로 할 때도 평균 FPR95를 22.25 % 감소시킨다. 또한 KNN 기반 거리 점수에도 동일하게 적용 가능함을 보이며, 방법론의 범용성을 입증한다.
Ablation 연구에서는(1) 사용 통계 종류(µ, σ, m)별 효과, (2) 클리핑 상한 c 의 민감도, (3) 곱셈 vs. 덧셈 결합 방식을 비교한다. 결과적으로 σ와 m 기반 γ가 가장 안정적인 성능을 보였으며, c 값은 데이터셋마다 0.5~2.0 사이에서 최적화된다. 논문 부록에서는 γ가 ID와 OOD 샘플에서 서로 다른 채널별 분포를 형성한다는 통계적 증거와, γ가 높은 경우 OOD 샘플의 에너지 점수가 크게 감소해 결정 경계가 명확해지는 메커니즘을 정량적으로 분석한다.
Catalyst의 장점은(1) 기존 모델을 재학습할 필요 없이 사후 적용 가능, (2) 구현이 간단해 γ 계산에 추가 연산량이 미미, (3) 다양한 점수 함수와 호환돼 현재 연구 흐름에 손쉽게 통합될 수 있다는 점이다. 다만, 채널 수가 매우 큰 모델에서는 γ 계산 비용이 약간 증가할 수 있으며, 클리핑 상한 c 를 데이터셋에 맞게 튜닝해야 하는 실용적 제약이 존재한다. 전반적으로 Catalyst는 OOD 탐지 성능을 크게 끌어올리는 실용적인 “스케일링 레이어” 역할을 수행한다.
댓글 및 학술 토론
Loading comments...
의견 남기기