노이즈에 강한 소수학습을 위한 양방향 다중뷰 프롬프트 정렬
초록
본 논문은 비전‑언어 모델(VLM)에서 소수학습 시 발생하는 라벨 노이즈 문제를 해결하기 위해, 다중뷰 프롬프트와 비대칭 최적수송(Unbalanced Optimal Transport)을 결합한 NA‑MVP 프레임워크를 제안한다. 클린 프롬프트와 노이즈‑인식 프롬프트를 양방향으로 설계하고, 지역‑레벨 이미지 패치와 프롬프트 간의 정밀 매칭을 수행함으로써 노이즈에 강인한 정렬을 구현한다. 또한, 정렬 신호를 이용해 의심스러운 샘플을 선택적으로 교정하는 라벨 정제 모듈을 도입해 기존의 전역‑기반 재라벨링 방식보다 안정적인 성능 향상을 보인다. 실험 결과, 합성·실제 노이즈 벤치마크 모두에서 최첨단 방법들을 앞선다.
상세 분석
NA‑MVP는 기존 프롬프트 튜닝이 전역 이미지‑텍스트 매칭에 의존하고, 단일 혹은 양성/음성 프롬프트 쌍만을 활용하는 한계를 극복한다. 첫 번째 핵심은 ‘다중뷰 프롬프트’ 설계이다. 각 클래스마다 N개의 클린‑지향 프롬프트와 N개의 노이즈‑인식 프롬프트를 학습 가능한 임베딩 형태로 정의하고, 텍스트 인코더를 통해 각각 G_c^k와 G_n^k라는 특징 집합으로 변환한다. 두 번째 핵심은 지역‑레벨 정렬을 위한 Unbalanced Optimal Transport(UOT)이다. 이미지 인코더는 전역 피처 f_i와 L=H×W 개의 로컬 패치 피처 F_i={f_l}를 추출하고, 코사인 유사도로 정의된 비용 행렬 C_k=1−F_i G_k^T를 기반으로 UOT를 풀어 부분 매칭을 수행한다. UOT는 질량 보존 제약을 완화해 노이즈가 섞인 패치가 전체 정렬에 과도하게 영향을 주는 것을 방지한다. 최적화는 엔트로피 정규화된 Sinkhorn 알고리즘과 Dykstra 반복을 이용해 효율적으로 수행된다.
정렬 결과는 클린 정렬 점수 s_c(i,k)=1−d_UOT(F_i,G_c^k)와 노이즈 정렬 점수 s_n(i,k)=1−d_UOT(F_i,G_n^k)로 변환되고, 온도 파라미터 τ를 이용해 확률 p_c(i,k)와 p_n(i,k)로 정규화된다. 이를 기반으로 bi‑directional 이미지‑텍스트 대조 손실(ITBP)을 정의한다. ITBP는 이미지가 클린 프롬프트와는 높은 유사도를, 노이즈 프롬프트와는 낮은 유사도를 갖도록 유도함으로써 두 프롬프트 사이의 상호 보완성을 강화한다.
라벨 정제 단계에서는 p_c와 p_n을 결합해 샘플별 노이즈 확률을 추정하고, 적응형 임계값 φ를 통해 의심스러운 샘플을 선별한다. 선별된 샘플에 대해서는 전통적인 OT(질량 보존) 기반의 전역 정렬을 수행해 이미지 전역 피처와 클래스 레벨 텍스트 피처를 매핑함으로써 라벨을 교정한다. 이 과정은 ‘선택적 교정’이라 불리며, 전체 데이터에 대한 무분별한 재라벨링을 방지한다.
실험에서는 CIFAR‑10/100, ImageNet‑R 등에서 합성 라벨 노이즈(대칭, 비대칭)와 실제 노이즈(Clothing1M 등)를 적용해 평가했다. NA‑MVP는 기존 CoOp, CoCoOp, PLOT, CLIPN 등과 비교해 평균 3~7%p의 정확도 향상을 보였으며, 특히 1‑shot·2‑shot 설정에서 노이즈 비율이 40% 이상일 때도 안정적인 성능을 유지했다. Ablation 연구를 통해 다중뷰, 양방향 손실, UOT 기반 정렬, 선택적 정제 각각이 기여하는 효과를 정량화하였다.
전체적으로 NA‑MVP는 (1) 지역‑레벨 정렬을 통한 노이즈 억제, (2) 클린·노이즈 프롬프트의 양방향 설계, (3) 정렬 신호 기반 선택적 라벨 교정이라는 세 축을 결합해, 소수학습 환경에서 라벨 노이즈에 대한 강인성을 크게 향상시킨다. 다만, 프롬프트 수와 UOT 반복 횟수에 따른 계산 비용이 증가한다는 점과, 매우 높은 차원(예: 1024‑dim)에서의 OT 수렴 안정성에 대한 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기