라벨이 적은 상황을 위한 반지도학습 컨포멀 예측 NNM 점수 활용

라벨이 적은 상황을 위한 반지도학습 컨포멀 예측 NNM 점수 활용
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 라벨이 부족한 캘리브레이션 단계에서 발생하는 커버리지 불안정성을 해소하기 위해, 라벨이 없는 데이터의 비순응점수(Nonconformity Score)를 정의하고 이를 기존의 라벨 기반 점수와 결합한 SemiCP 프레임워크를 제안한다. 새로운 비순응점수인 최근접 이웃 매칭(NNM) 점수는 무라벨 샘플을 가장 유사한 의사라벨(pseudo‑label)과 매칭해 추정한다. 이론적으로 평균 커버리지 갭이 O(1/√N) 속도로 감소함을 증명하고, CIFAR‑10/100 및 ImageNet에서 라벨 20개, 무라벨 4000개 상황에서 커버리지 갭을 최대 77% 감소시키는 실험 결과를 제시한다.

상세 분석

본 연구는 기존 Split Conformal Prediction이 라벨이 충분히 확보되지 않을 경우, 커버리지 분포가 베타 형태로 크게 퍼져 불안정한 예측 집합을 만든다는 점을 정확히 지적한다. 이를 해결하기 위해 저자는 두 가지 핵심 아이디어를 도입한다. 첫째, 라벨이 없는 데이터에 대해 “비순응점수”를 정의한다는 점이다. 일반적인 비순응점수 S(x, y) 는 모델이 예측한 확률과 실제 라벨 y 의 차이를 정량화하지만, 라벨이 없으면 직접 계산할 수 없다. 저자는 무라벨 샘플 \tilde{x} 에 대해 가장 유사한 라벨이 부여된 샘플 (x_i, y_i) 을 찾고, 그 라벨을 임시 의사라벨 \tilde{y} 으로 사용해 S(\tilde{x}, \tilde{y}) 를 계산한다. 이 과정을 “Nearest Neighbor Matching (NNM) 점수”라 명명하고, 거리 측정으로는 일반적인 유클리드 거리 혹은 임베딩 공간에서의 코사인 유사도를 활용한다. 두 번째 아이디어는 라벨이 있는 점수와 NNM 점수를 하나의 풀(pool)로 합쳐 Quantile 추정에 사용함으로써, 전체 캘리브레이션 샘플 수를 n+N 으로 확대한다는 점이다. 이때 \hat{τ}_{SemiCP} 는 합쳐진 점수들의 (1‑α) 분위수를 취한다.

이론적 분석에서는 두 누적분포 F_S (실제 비순응점수)와 F_{\tilde{S}} (NNM 점수)의 차이가 커버리지 바이어스 ε_{n,N}= \frac{N}{n+N}\big(F_S(\hat{τ})-F_{\tilde{S}}(\hat{τ})\big) 를 만든다고 증명한다. 중요한 것은 N 이 커질수록 ε_{n,N} 은 O(1/√N) 속도로 감소하고, 전체 평균 커버리지 갭도 동일한 비율로 수렴한다는 점이다. 이는 무라벨 데이터가 충분히 많을 경우, 라벨 기반 캘리브레이션의 불안정성을 거의 완전히 상쇄할 수 있음을 의미한다. 또한, Theorem 2는 조건부 커버리지(그룹 혹은 클래스 별) 상황에서도 동일한 수렴 특성을 보이며, 실제 구현에서는 추가적인 가정 없이 기존 CP 파이프라인에 바로 적용 가능하도록 설계되었다.

실험에서는 CIFAR‑10, CIFAR‑100, ImageNet 세 데이터셋에 대해 라벨 20개, 무라벨 4000개를 사용한 극한 상황을 설정하였다. 기존 Split CP(THR, APS, RAPS)와 비교했을 때, SemiCP는 평균 커버리지 갭을 77%까지 감소시켰으며, 예측 집합 크기도 평균 5~6% 정도 줄어들었다. 특히, 라벨이 10개 이하일 때는 커버리지 오버슈트가 크게 완화되고, 분산이 현저히 감소해 안정적인 성능을 보였다. 추가 실험에서는 다양한 백본(ResNet, ViT)과 조건부 CP(ClusterCP)에도 적용했으며, 모두 유사한 안정성 향상을 확인했다.

전체적으로 이 논문은 무라벨 데이터를 활용한 비순응점수 설계와 그에 기반한 Semi‑Supervised CP 프레임워크를 통해, 라벨이 극히 제한된 상황에서도 이론적 보장을 유지하면서 실용적인 성능 향상을 달성한 점이 가장 큰 공헌이다.


댓글 및 학술 토론

Loading comments...

의견 남기기