이중 적응형 이웃 기반 컨포멀 예측 DANCE
DANCE는 사전학습 이미지 인코더의 임베딩을 활용해 작업에 특화된 커널을 학습하고, 그 커널 공간에서 이웃 기반 두 종류의 비순응도 점수를 결합해 클래스 예측 집합을 구성한다. 순위 기반 점수는 집합 크기를 최소화하고, 밀도 기반 점수는 희소 클래스에 대한 견고성을 제공한다. 실험 결과, 기존 로컬·제로샷·로그잇 기반 방법보다 평균 집합 크기가 작으면서 1‑α 커버리지를 유지한다.
저자: Br, on R. Feng, Brian J. Reich
본 논문은 사전학습된 이미지 인코더(예: CLIP)의 고차원 임베딩을 그대로 사용하는 기존 컨포멀 예측 방법이, 다운스트림 작업에 맞지 않는 로그잇 스코어에 의존함으로써 과도하게 큰 예측 집합을 생성한다는 문제점을 지적한다. 이를 해결하기 위해 저자들은 DANCE(Doubly Adaptive Neighborhood Conformal Estimation)라는 새로운 프레임워크를 제안한다. DANCE는 크게 두 단계로 구성된다.
첫 번째 단계는 작업 특화 커널 학습이다. Recursive Feature Machine(RFM)이라는 모델을 이용해 임베딩 공간에 Mahalanobis 거리 기반의 일반화 라플라스 커널 K_M을 학습한다. RFM은 평균 그래디언트 외적(A‑GOP)을 통해 특징 중요도 행렬 M을 추정하고, 이를 통해 K_M(Z_i, Z_j)=exp(−‖Z_i−Z_j‖_M^L/ξ) 형태의 비선형 커널을 만든다. 이 커널은 기존 코사인 거리보다 클래스 간 복잡한 비선형 관계를 더 잘 포착한다는 점이 Figure 2의 PCA 시각화에서 확인된다.
두 번째 단계에서는 학습된 커널 공간에서 두 종류의 비순응도 점수를 정의한다.
1) **Rank‑Based Score (S_knn)**: 임베딩 Z에 대해 k‑nearest neighbor 집합 N_k(Z)를 찾고, 그 이웃들의 라벨 집합 ˆL_k(Z)=Unique{라벨}를 만든다. 비순응도 점수는 라벨 y가 포함되는 최소 k값을 사용한다. 이 점수는 순위에만 의존하므로 임베딩 밀도 차이에 강인하고, calibration set의 (1−α_knn) quantile을 임계값 q_knn으로 잡아 marginal coverage 1−α_knn을 이론적으로 보장한다(정리 3.1). 다만 이산적 특성 때문에 ties가 발생하면 과보수성이 나타날 수 있어, 작은 균등 잡음 U(0,ε)를 추가한다.
2) **Density‑Based Score (S_clr)**: InfoNCE 기반 대비 손실을 이용해 임베딩 공간을 구조화한다. 양성(동일 라벨) 쌍과 음성(다른 라벨) 쌍 사이 거리를 조정해, 특정 밀도 임계값 q_clr 이하에 속하는 라벨을 후보 집합 ˆC_clr에 포함시킨다. 이 점수는 지역 밀도에 민감해 희소 클래스나 경계 샘플에 대해 더 포괄적인 집합을 제공한다.
두 점수를 교집합(ˆC_knn ∩ ˆC_clr)으로 결합함으로써, DANCE는 “효율성 + 견고성”이라는 트레이드오프를 동시에 만족한다. α를 두 부분으로 나누어 α_knn = α_clr = α/2 로 설정해 전체 α 수준을 맞추었다.
실험에서는 Imagenet‑R, CIFAR‑100, 의료 영상 데이터 등 다양한 이미지 분류 벤치마크에서 DANCE를 기존 로컬 컨포멀(LOCAL‑CP, CONFINE), 제로샷 RAPS, APS 등과 비교했다. 결과는 평균 예측 집합 크기가 10‑30% 감소하면서도 1−α 커버리지는 99.5% 이상 유지되었으며, 특히 클래스 불균형이 큰 데이터셋에서 S_clr이 희소 라벨을 놓치지 않게 하는 역할이 두드러졌다.
계산 복잡도 측면에서 RFM 학습은 O(nd^2)이며, 학습 후에는 커널 행렬을 사전 계산해 k‑NN 검색을 효율적으로 수행한다. 대규모(>1M) 이미지에서도 Approximate Nearest Neighbor 기법을 적용해 실시간 추론이 가능함을 보였다.
논문의 한계로는 (1) RFM 학습에 라벨이 필요하므로 완전한 제로샷 상황에서는 적용이 어려울 수 있다. (2) 커널 파라미터 L, ξ, k값에 대한 민감도가 존재해 하이퍼파라미터 튜닝이 필요하다. (3) 현재는 이미지 분류에 초점을 맞추었으며, 텍스트·오디오 등 다중모달 상황에서의 확장 가능성은 추가 연구가 필요하다.
결론적으로 DANCE는 사전학습 모델의 풍부한 임베딩 정보를 활용해 작업에 맞는 커널을 학습하고, 그 커널 공간에서 이웃 기반 두 종류의 비순응도 점수를 결합함으로써 기존 방법들의 장점을 통합한다. 이는 컨포멀 예측의 실용성을 크게 향상시키며, 불확실성 정량화가 요구되는 다양한 실제 응용 분야에 바로 적용할 수 있는 강력한 도구가 된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기