안전 핵심 객체 탐지를 놓치는 상황을 예측하는 지식 기반 실패 예측
KGFP는 객체 탐지기의 내부 특징과 시각 기반 파운데이션 모델(DINO) 임베딩 사이의 각도 차이를 이용해, 안전에 필수적인 객체(예: 보행자)를 놓칠 가능성이 있는 이미지를 실시간으로 감지한다. COCO 사람 검출에서 5 % 허위 양성률(FPR) 기준으로 인식률을 64.3 %에서 84.5 %로 크게 향상시켰으며, 다양한 OOD 도메인에서도 기존 OOD 탐지 기법을 능가한다.
저자: Jakob Paul Zimmermann, Gerrit Holzbach, David Lerch
본 논문은 안전‑중요 애플리케이션(자율주행, 현장 감시 등)에서 객체 탐지기가 보행자와 같은 핵심 객체를 놓치는 ‘무음 실패’를 실시간으로 감지하기 위한 새로운 프레임워크인 Knowledge‑Guided Failure Prediction(KGFP)을 제안한다. 기존의 Out‑of‑Distribution(OOD) 탐지는 입력이 학습 분포와 다른지를 판단하는 데 초점을 맞추지만, 실제 안전 시스템에서는 탐지기가 정상적인 입력에서도 특정 객체를 놓치는 경우가 더 위험하다. 따라서 KGFP는 탐지기의 기능적 실패를 직접 예측하도록 설계되었으며, 두 가지 핵심 아이디어를 결합한다.
첫 번째 아이디어는 객체 탐지기(YOLOv8)의 다중 스케일 피처 피라미드와 최신 시각 파운데이션 모델(DINO)의 전역 임베딩을 각각 별도의 인코더에 입력한다는 것이다. YOLOv8은 Feature Pyramid Network(FPN)를 통해 P3, P4, P5 세 가지 스케일(작은, 중간, 큰 객체)에서 피처를 추출한다. 각 스케일은 채널 차원을 256~512로 통일하고, 공간 해상도를 80×80으로 맞춘 뒤 합쳐진다. 두 번째 아이디어는 두 인코더가 출력한 64‑차원 벡터 사이의 코사인 유사도를 각도(angular distance)로 변환해 안전 점수로 활용한다는 것이다. 탐지기와 파운데이션 모델의 표현이 의미적으로 정렬될수록(각도가 작을수록) 탐지기가 정상적으로 동작한다고 판단하고, 큰 각도는 의미적 불일치를 나타내어 보행자 누락 가능성을 경고한다.
아키텍처는 크게 세 단계로 구성된다. (1) **멀티‑스케일 피처 추출 및 전처리** – YOLOv8‑l 모델에서 P3, P4, P5 피처를 추출하고, 채널 차원을 통일한 뒤 공간 해상도를 맞추어 하나의 텐서로 합친다. (2) **프리‑퓨전 크로스‑스케일 어텐션** – 각 스케일을 토큰으로 간주하고 서로에게 어텐션을 적용해 스케일 간 정보를 교환한다. 이렇게 하면 작은 객체 피처가 큰 스케일의 장면‑레벨 정보를 활용할 수 있다. 이후 자체 어텐션 블록을 통해 전역적인 공간 관계를 강화한다. (3) **포스트‑퓨전 트랜스포머와 크로스‑어텐션** – 합쳐진 피처를 4×4 패치로 분할하고, 2개의 자체 어텐션 블록과 2개의 크로스‑어텐션 블록을 차례로 적용한다. 여기서 크로스‑어텐션의 키와 밸류는 DINO 모델에서 추출한 CLS 토큰(전역 임베딩)이며, 쿼리는 탐지기 피처의 투사이다. 이 과정을 통해 탐지기 피처가 외부 세계 지식과 의미적으로 연계된다.
두 인코더는 각각 64‑차원 임베딩(e_pr, e_wk)으로 투사된다. YOLOv8 피처는 글로벌 풀링 후 MLP을 거쳐 64‑차원으로 압축하고, DINO 임베딩은 5‑계층 MLP(768→1024→768→640→512→64)으로 변환한다. 최종적으로 코사인 유사도 s = (e_pr·e_wk)/(‖e_pr‖‖e_wk‖)를 계산하고, 이를 (1‑s)/2 로 변환해 0~1 사이의 안전 확률 p_safe를 얻는다. p_safe가 낮을수록(각도가 클수록) 탐지기가 안전‑중요 객체를 놓칠 위험이 높다고 판단한다. BCE 손실을 사용해 ‘안전(모든 보행자 검출)’과 ‘위험(보행자 누락)’ 라벨을 학습한다.
실험 설정은 다음과 같다. COCO 2017 훈련 데이터를 90 %/10 % 비율로 학습·검증 셋으로 나누어 KGFP를 학습하고, COCO val2017(2,693 이미지)를 최종 테스트 셋으로 사용한다. 주요 평가지표는 5 % 허위 양성률(FPR)에서의 사람 인식률(Person Recall)이다. KGFP는 선택적 예측 게이트로 작동할 때, 기존 탐지기(YOLOv8)만 사용할 경우 64.3 %였던 인식률을 84.5 %로 끌어올렸다. 이는 MSP, ODIN, Energy, Mahalanobis, K‑NN, ReAct, GRAM 등 대표적인 OOD 탐지 기법보다 크게 앞선 결과다. 특히, ID 이미지에서도 내부 피처만을 이용한 방법보다 높은 정확도를 보였으며, COCO‑O에 포함된 6가지 시각 변형(날씨, 조명, 스타일 등)에서도 일관된 성능을 유지했다. DINO‑ViM 변형을 포함한 다양한 파운데이션 모델과의 비교 실험에서 DINO 기반 외부 지식이 실패 예측에 크게 기여함을 확인했다.
KGFP의 주요 장점은 (1) 탐지기의 내부 신호가 정상적이라 하더라도 외부 세계 지식과의 의미적 불일치를 포착해 ‘숨은’ 실패를 드러낼 수 있다는 점, (2) OOD 입력 자체가 아니라 안전에 직접적인 영향을 미치는 경우에만 경고를 발생시켜 알람 피로(alarm fatigue)를 크게 감소시킨다는 점이다. 한계점으로는 파운데이션 모델 자체가 새로운 도메인에서 오작동할 경우 두 임베딩이 모두 일치하지 않아 거짓 양성률이 상승할 가능성이 있다는 점이다. 향후 연구에서는 다중 파운데이션 모델 앙상블, 탐지기와 파운데이션 모델 간의 상호 적응 학습, 그리고 실시간 시스템에 적용 가능한 경량화 기법 등을 탐색함으로써 이러한 한계를 보완하고, 실제 안전‑중요 시스템에 적용 가능한 신뢰성 높은 모니터링 솔루션을 구축하고자 한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기