AdaSCALE 적응형 스케일링으로 OOD 탐지 성능 극대화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AdaSCALE은 입력 샘플의 OOD 가능성을 추정해 동적으로 퍼센타일 임계값을 조정하는 적응형 스케일링 기법이다. 작은 교란에 대한 고활성값 변동을 이용해 OOD 정도를 판단하고, ID 샘플에는 강한 스케일링, OOD 샘플에는 약한 스케일링을 적용해 에너지 점수를 크게 구분한다. ImageNet‑1k 및 CIFAR‑10/100에서 8개·2개 아키텍처에 걸쳐 기존 최첨단 방법들을 크게 앞섰다.

상세 분석

AdaSCALE의 핵심 아이디어는 “고활성값이 작은 교란에 의해 얼마나 크게 이동하는가”를 OOD 지표로 활용한다는 점이다. 기존의 고정 퍼센타일 기반 스케일링(ASH, SCALE, LTS)은 모든 샘플에 동일한 k값(예: 상위 3% 활성값)만을 적용해 스케일링 비율 r을 계산한다. 이는 ID와 OOD 사이의 에너지 점수 차이를 제한하는 구조적 한계가 있다. 논문은 먼저 ReAct이 제시한 “OOD는 비정상적으로 높은 활성값을 보인다”는 현상을 재확인하고, 여기에 “그 높은 활성값의 위치가 교란에 의해 불안정하게 변한다”는 추가 관찰을 제시한다. 구체적으로, 입력 이미지에 대해 그래디언트 기반 픽셀 기여도(AT)를 계산하고, 기여도가 낮은 픽셀 o%를 선택해 부호(ε·sign(AT))를 더한 작은 교란을 가한다. 교란 후의 활성값 aε와 원본 a의 절대 차이 |aε−a|를 구해 상위 k% 활성값에서 평균 이동량을 측정한다. 실험 결과 OOD 샘플은 이 이동량이 크게 나타나며, ID 샘플은 상대적으로 안정적이다. 이를 OODness 추정치로 사용해 퍼센타일 p를 동적으로 조정한다. 즉, 이동량이 크면 높은 p(즉, 작은 k)를 선택해 스케일링 비율 r을 크게(스케일링 약함) 만들고, 이동량이 작으면 낮은 p(큰 k)를 선택해 r을 작게(스케일링 강함) 만든다. 이렇게 하면 ID 샘플은 에너지 점수가 크게(음수 로그합이 작아져 ID로 판단) 되고, OOD 샘플은 점수가 작게(음수 로그합이 커져 OOD로 판단) 된다.

AdaSCALE는 두 가지 구현 옵션을 제공한다. ① 활성값 공간에서 직접 스케일링을 수행하고, ② 후 ReLU 활성값을 로그잇에 직접 적용하는 LTS 방식과 유사하게 로그잇에 스케일링을 적용한다. 두 경우 모두 동일한 OODness 추정 로직을 공유한다.

성능 평가에서는 ImageNet‑1k 기준 8가지 대표 아키텍처(ResNet‑50, EfficientNet‑B0 등)와 CIFAR‑10/100의 2가지 아키텍처에 대해 FPR@95와 AUROC를 측정했다. Near‑OOD(예: ImageNet‑A, ImageNet‑R)와 Far‑OOD(예: iNaturalist, SUN) 모두에서 기존 최첨단 OptFS 대비 평균 FPR@95가 Near‑OOD에서 14.94%, Far‑OOD에서 21.67% 감소했으며, AUROC 역시 유사하게 개선되었다. 특히 ResNet‑50에서는 SCALE을 12.95%·6.44%(Near‑OOD)와 16.79%·0.79%(Far‑OOD) 만큼 앞섰다.

연산 비용 측면에서는 교란 생성과 활성값 이동량 계산이 추가되지만, 이는 단일 전방패스와 간단한 행렬 연산으로 구현 가능해 실시간 추론에 큰 지장을 주지 않는다. 또한 최소한의 ID 샘플(수백 개)만으로 퍼센타일 파라미터를 튜닝할 수 있어 대규모 데이터셋에서의 적용성이 높다.

이 논문은 고정 스케일링의 한계를 명확히 짚고, “활성값 변동성”이라는 새로운 신호를 도입함으로써 포스트‑hoc OOD 탐지에서 새로운 패러다임을 제시한다. 향후 연구에서는 교란 전략을 다양화하거나, 중간 레이어 활성값까지 확장해 다중 스케일링을 적용하는 방안이 기대된다.

AdaSCALE 적응형 스케일링으로 OOD 탐지 성능 극대화

초록

상세 분석

댓글 및 학술 토론

의견 남기기