모든 테스트 샘플을 활용한 평균 이동 기반 테스트 시점 적응

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 CLIP 기반 비전‑언어 모델의 테스트 시점 적응을 위해, 고신뢰 샘플에만 의존하던 기존 방법의 한계를 극복하고, 모든 테스트 샘플을 대상으로 단일 단계 kNN 평균 이동(mean‑shift)을 적용한다. 이를 통해 특징 공간을 CLIP 원본 공간보다 더 조밀하고 구분이 명확하게 재구성하고, 정제된 임베딩 캐시를 이용해 로그잇을 보강함으로써 훈련 없이도 OOD 및 교차 데이터셋에서 기존 최첨단 방법들을 지속적으로 능가한다.

상세 분석

**
MS‑TTA는 먼저 CLIP의 시각 인코더로부터 얻은 원시 이미지 임베딩 fₜₑₛₜ를 입력으로, k‑최근접 이웃(kNN) 집합 N(fₜₑₛₜ) 을 구성한다. 전통적인 평균 이동은 반복적으로 중심을 이동시키지만, 실시간 테스트 환경에서는 연산 비용과 수렴 불안정성이 문제다. 따라서 저자는 단일 단계(mean‑shift)만 수행하도록 설계했으며, 가우시안 커널 대신 거리 기반 가중치 φ(·) 를 사용해 m(fₜₑₛₜ)=∑{i∈N} φ(‖fᵢ−fₜₑₛₜ‖) fᵢ / ∑{i∈N} φ(‖fᵢ−fₜₑₛₜ‖) 를 계산한다. 이 과정은 고신뢰·저신뢰 샘플 모두를 밀도 높은 영역으로 끌어당겨, 클래스 내부의 응집도(intra‑class compactness)를 높이고 클래스 간 거리를 확대한다( inter‑class separability).

정제된 임베딩은 동적 캐시 C 에 저장되며, 캐시 크기는 Q 로 제한된다. 새 샘플이 들어올 때마다, 기존 캐시와의 코사인 유사도로 가중합을 수행해 logits_cache = Σ_{i∈C} (g(x_i)·g(x_test)) · ŷ_i 를 얻는다. 여기서 ŷ_i 는 엔트로피 최소화 기반으로 얻은 의사 라벨이다. 최종 예측은 원본 CLIP 로그잇과 캐시 로그잇을 단순 합산(logits_final = logits_CLIP + logits_cache)함으로써, 원본 모델의 제로샷 능력과 정제된 특징의 보강 효과를 동시에 활용한다.

핵심적인 혁신은 두 가지이다. 첫째, 평균 이동을 통해 CLIP의 고정된 특징 공간을 넘어선 “재구성된” 공간을 만든다. 둘째, 모든 샘플을 활용함으로써 저신뢰 샘플이 가진 경계 정보와 희귀 패턴을 학습에 반영한다. 이는 기존 방법이 고신뢰 샘플만을 캐시해 발생하는 라벨 노이즈 전파와 적응 상한 문제를 근본적으로 해소한다. 실험에서는 ImageNet‑R, ImageNet‑A, DomainNet 등 다양한 OOD·Cross‑Dataset 벤치마크에서 평균 2~4%p의 정확도 상승을 기록했으며, 연산량은 kNN 탐색과 단일 평균 이동 단계에 국한돼 실시간 적용이 가능하다.

모든 테스트 샘플을 활용한 평균 이동 기반 테스트 시점 적응

초록

상세 분석

댓글 및 학술 토론

의견 남기기