비전‑언어 모델 프라프트 학습을 위한 예산 효율적 활성 학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 CLIP 등 사전 학습된 비전‑언어 모델(VLM)의 이미지·텍스트 인코더를 활용해 클래스‑가이드 클러스터링을 수행하고, 클러스터 균형 기반 획득 함수와 클래스별 적응 임계값을 이용한 선택적 쿼리 전략을 결합한 예산 효율적 활성 프라프트 학습 프레임워크를 제안한다. 실험 결과, 7개 데이터셋에서 기존 활성 학습 및 프라프트 학습 기법을 크게 능가한다.

상세 분석

이 연구는 기존 프라프트 학습이 모델 중심으로, 제한된 라벨 데이터만을 활용해 프라프트를 최적화하는 데 머물렀던 한계를 데이터 중심 접근으로 전환한다. 핵심 아이디어는 VLM의 이미지 인코더와 텍스트 인코더가 제공하는 풍부한 의미 공간을 그대로 이용해 ‘클래스‑가이드 특징(F_C)’을 구성하는 것이다. 구체적으로, 각 이미지에 대해 이미지 특징 I(x)와 현재 프라프트 t_{r‑1}에 기반한 클래스별 텍스트 특징 θ_txt(t_{r‑1},c)를 소프트 라벨 p_θ(y=c|x,t_{r‑1}) 로 가중합한 ˜T_C(x) 를 계산하고, 이를 I(x)와 연결(concatenate)해 F_C(x)를 만든다. 이렇게 만든 F_C는 이미지와 텍스트 양쪽 정보를 동시에 반영하므로, 전통적인 이미지 전용 클러스터링보다 클래스 구분에 더 민감한 군집을 형성한다.

K‑means 클러스터링을 적용해 K개의 군집을 만든 뒤, 각 군집에서 동일한 수의 샘플을 균등히 선택하는 ‘클러스터‑밸런스 획득 함수’는 초기 라운드에서의 콜드 스타트를 완화한다. 기존의 무작위 초기 샘플링은 편향된 데이터 분포로 인해 학습 효율을 저하시켰지만, 본 방법은 VLM의 사전 지식을 활용해 초기 데이터셋을 보다 대표적으로 구성한다.

다음으로, 클래스별 신뢰도 차이를 고려한 ‘선택적 쿼리’ 메커니즘을 도입한다. 라운드 r‑1까지 라벨링된 데이터의 예측 확신도를 기반으로 클래스별 임계값 τ_c를 동적으로 설정하고, 후보 샘플의 예측 확신도가 τ_c를 초과하면 의사 라벨(pseudo‑label)을 부여해 라벨링 비용을 절감한다. 이는 특히 VLM이 특정 클래스에 대해 높은 확신을 보이는 경우에 효과적이며, 추가적인 하이퍼파라미터 없이 자동으로 예산을 절약한다.

학습 단계에서는 기존 CoOp과 유사하게 학습 가능한 텍스트 프라프트 벡터 V_i 를 최적화한다. 하지만 데이터 선택이 보다 정보‑다양하고 균형 잡힌 샘플로 구성되므로, 동일 라벨 수 대비 모델 성능이 크게 향상된다. 실험에서는 7개 공개 이미지 분류 데이터셋(CIFAR‑10, ImageNet‑subset 등)에서 예산 B를 10%~30% 수준으로 제한했을 때, 제안 방법이 기존 PCB, Core‑Set, Entropy‑Based 등 다양한 베이스라인을 능가함을 확인했다. 또한, GradFAM과 t‑SNE 시각화를 통해 클래스‑가이드 특징이 실제로 목표 클래스에 초점을 맞추는 것을 정량·정성적으로 입증하였다.

전반적으로, 이 논문은 VLM의 풍부한 사전 지식을 데이터 선택 단계에 직접 통합함으로써, 라벨링 비용을 최소화하면서도 프라프트 학습 효율을 극대화하는 새로운 패러다임을 제시한다.

비전‑언어 모델 프라프트 학습을 위한 예산 효율적 활성 학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기