최적수송 기반 OOD 샘플로 과신 억제
초록
본 논문은 반연속 최적수송(OT)에서 발생하는 특이 경계가 의미적 모호성을 나타낸다는 관찰에 기반해, 이러한 경계 근처를 샘플링해 OOD 입력을 생성한다. 생성된 OT‑Induced OOD Samples(OTIS)를 이용해 신뢰도 억제 손실을 적용함으로써, 모델이 구조적으로 불안정한 영역에서 과도한 자신감을 보이지 않도록 학습한다. 실험 결과, 기존 방법들을 능가하며 ID 정확도는 유지한다.
상세 분석
이 연구는 딥러닝 모델이 OOD 입력에 대해 과도한 신뢰도를 보이는 문제를, 반연속 최적수송(semi‑discrete OT)의 기하학적 특성을 활용해 근본적으로 해결하고자 한다. 반연속 OT는 연속적인 소스 분포(예: 가우시안)와 이산적인 타깃 분포(학습 데이터 임베딩) 사이의 최적 매핑을 정의한다. Brenier 정리에 따라 최적 매핑은 볼록 함수 u_h의 그래디언트이며, u_h는 여러 선형 함수들의 상한(envelope)으로 구성된다. 이때 u_h가 비미분인 지점, 즉 특이 집합 Σ는 인접 라그랑주 셀 사이의 경계면에 해당한다. 논문은 Σ가 의미적 전이 영역, 즉 클래스 간 경계에서 모델이 불안정하게 동작하고 과신을 일으키는 “구조적 불확실성”을 나타낸다고 주장한다.
구현 측면에서는 먼저 자동인코더를 이용해 입력을 저차원 잠재공간 Y에 압축한다. 학습 샘플들의 잠재벡터 {y_i}를 타깃 이산 측정 ν로 설정하고, 연속 소스 μ(가우시안 또는 균등)를 사용해 OT 문제를 풀어 볼록 잠재공간을 라그랑주 셀로 분할한다. Monte‑Carlo 샘플링으로 각 셀의 μ‑볼륨을 추정하고, 목표 가중치와의 차이를 최소화하는 최적 오프셋 h를 구한다. 이렇게 얻어진 셀 경계 S_ij에 대해, 셀 중심 간의 각도 차이를 점수화하여 큰 각도 변화를 보이는 상위 경계들을 “특이 경계” S′로 선정한다.
특이 경계 주변에서 두 셀 중심 c_i, c_j를 추정하고, 임의의 μ‑샘플 z에 대해 역거리 가중치 λ_i, λ_j를 계산한다. 이를 통해 부드러운 전이 매핑 ˜T(z)=λ_i T(c_i)+λ_j T(c_j)를 정의하고, 해당 잠재벡터를 디코더로 복원해 OTIS를 만든다. OTIS는 클래스 혼합이나 잡음 기반 OOD 샘플과 달리, 데이터 분포의 기하학적 구조와 직접 연결된 의미적 모호성을 내포한다.
학습 단계에서는 배치의 절반을 원본 ID 샘플에 교차 엔트로피 손실을, 나머지 절반을 OTIS에 신뢰도 억제 손실 L_sup=∑_k (1/K)log V_k(·)를 적용한다. 이는 OTIS에 대해 소프트맥스 확률을 균등하게 만들도록 강제해, 모델이 구조적으로 불안정한 영역에서 높은 최대 신뢰도를 내보내지 못하게 한다.
실험에서는 CIFAR‑10/100, SVHN 등 다양한 데이터셋과 ResNet, WideResNet 등 여러 아키텍처에 적용했으며, OOD 검출 지표(OOD MMC)와 ID 정확도 모두에서 기존 최첨단 방법(OE, CCU, CEDA 등)을 앞섰다. 특히 특이 경계 기반 샘플이 “시멘틱하게 모호한” 영역을 효과적으로 커버한다는 점이 정량·정성 분석을 통해 입증되었다.
강점은 (1) OT 이론에 기반한 샘플 생성으로 이론적 정당성을 확보, (2) 잠재공간에서의 계산으로 고차원 이미지에 대한 OT 비용을 실용적으로 감소, (3) ID 성능을 손상시키지 않으면서 OOD 과신을 크게 감소시킨다. 한계로는 (①) 잠재공간의 품질에 크게 의존해 자동인코더 학습이 부실하면 특이 경계가 왜곡될 수 있음, (②) Monte‑Carlo 기반 볼륨 추정과 경계 스코어링이 샘플링 비용을 증가시키며, 대규모 데이터셋에선 효율적인 근사 방법이 필요함을 들 수 있다. 향후 연구는 보다 강건한 잠재표현 학습, 고차원 OT 직접 최적화, 그리고 다른 불확실성 정량화 기법과의 결합을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기