조기 차단으로 환각 방지: 신호와 의미 OOD 탐지를 분리하는 계단식 거부 프레임워크

조기 차단으로 환각 방지: 신호와 의미 OOD 탐지를 분리하는 계단식 거부 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 물리적 신호 이상과 의미적 이상을 각각 조기에 걸러내는 두 단계 구조인 구조적 에너지 체와 의미‑인식 초구 에너지 검출기를 제안한다. 입력 초기에 라플라시안 기반 고주파 필터로 물리적 노이즈를 차단하고, 중간 층에서는 특징 벡터의 크기와 방향을 분리해 의미적 편차만을 판단한다. 실험 결과, CIFAR‑100 기준 FPR95를 33.58%→22.84%로 낮추고 연산량을 32% 절감했다.

상세 분석

이 논문은 기존 OOD 탐지 방법이 최종 레이어에만 의존해 전체 네트워크를 무조건 실행함으로써 발생하는 ‘컴퓨팅 불일치’와 ‘의미 환각’ 문제를 근본적으로 재정의한다. 저자는 입력 단계에서 물리적 이상을 빠르게 걸러내는 구조적 에너지 체(Structural Energy Sieve, SES)를 설계했으며, 이는 고정된 라플라시안 커널을 이용해 입력 이미지의 고주파 성분을 추출한다. 라플라시안 응답은 실제로 주파수 영역에서 에너지 스펙트럼의 ω² 가중 평균에 비례하므로, 자연 이미지가 따르는 1/fα 법칙을 위배하는 잡음이나 텍스처 이상을 효과적으로 감지한다. 특히, 채널별 에너지 값을 절대값으로 취하고, Top‑K 채널만을 평균하는 Adaptive Top‑K Spectral Pooling을 도입해 희소한 이상 신호가 평균에 묻히는 현상을 방지한다. 이 과정에서 정의된 Spectral Contrast Gain G는 가장 강한 채널 에너지와 전체 채널 평균 에너지의 비율을 정량화해, 물리적 이상 여부를 명확히 판단한다.

첫 번째 관문을 통과한 샘플은 두 번째 단계인 의미‑인식 초구 에너지(Semantically‑aware Hyperspherical Energy, SHE) 검출기로 전달된다. 기존 에너지 기반 OOD 점수는 특징 벡터의 L2 노름 ‖z‖에 크게 의존해, 고주파 노이즈가 큰 ‖z‖을 만들면 오히려 낮은 에너지 점수를 부여해 잘못된 판단을 초래한다. 이를 해결하기 위해 저자는 클래스 프로토타입 μ_k를 중간 층 특징들의 가중 평균으로 정의하고, 각 클래스의 가중치를 정규화한 뒤, 특징 벡터와 프로토타입 사이의 코사인 유사도(방향)만을 사용한다. 즉, f_j(z)=κ_j·(zᵀμ_j)/‖z‖ 형태의 초구 임베딩을 적용해 크기 정보를 완전히 제거하고, 의미적 일치도만으로 에너지 점수를 재계산한다. 이 설계는 ‘크기 편향’에 의한 의미 환각을 근본적으로 억제한다.

전체 프레임워크는 K개의 연속적인 거부 모듈 M₁…M_K 로 구성되며, 각 단계는 사전 정의된 임계값 A_i에 따라 이진 게이트 G_i(z_i)를 출력한다. G_i가 0이면 즉시 ‘Reject’ 상태가 되며, 최종 분류기 f_K는 모든 거부 모듈을 통과한 경우에만 활성화된다. 이러한 설계는 훈련 없이도 각 단계별 스코어링 함수 S_i와 임계값을 조정해 다양한 연산 예산에 맞출 수 있다.

실험에서는 ResNet‑34 기반 모델에 CER을 적용해 CIFAR‑100을 ID로, SVHN, MNIST, Places365, LSUN, iSUN, Textures 등을 OOD로 사용하였다. FPR95 기준 OOD 탐지 성능은 기존 최첨단 방법인 PALM(33.58%)보다 22.84%로 10%p 이상 개선했으며, AUROC도 93.97%까지 끌어올렸다. 특히, 센서 고장 시뮬레이션 등 실제 물리적 노이즈 환경에서도 기존 방법보다 월등히 높은 재현율을 보였다. 연산 측면에서는 라플라시안 연산과 간단한 Top‑K 집계만으로 초기 단계가 처리되므로 전체 FLOPs가 약 32% 감소한다.

한계점으로는 라플라시안 커널이 고정되어 있어 데이터셋 특성에 따라 최적의 고주파 필터가 달라질 수 있다는 점, 그리고 SHE 단계에서 프로토타입을 사전 계산해야 하는 추가 메모리 비용이 있다. 향후 연구에서는 학습 가능한 고주파 필터와 프로토타입 업데이트 메커니즘을 도입해 다양한 도메인에 대한 적응성을 높이는 방안을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기