이중 프롬프트 기반 CLIP 적응을 위한 불확실성 모델링

이중 프롬프트 기반 CLIP 적응을 위한 불확실성 모델링
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 CLIP의 텍스트 브랜치에 양방향(긍정·부정) 학습 가능한 프롬프트를 도입해, 시각‑언어 모델의 불확실성을 직접 모델링한다. 긍정 프롬프트는 시각 임베딩과 텍스트 임베딩을 정렬해 분류 정확도를 높이고, 부정 프롬프트는 역학습을 통해 예측 라벨의 정답 확률을 추정한다. 이 확률을 기반으로 각 클래스 내에서 가장 불확실한 샘플을 선택해 인간에게 라벨링을 요청하고, 가장 확신 있는 샘플은 의사라벨로 활용한다. 실험 결과, 제한된 라벨 예산 하에서 기존 활성학습 기법들을 지속적으로 능가한다.

상세 분석

본 연구는 사전 학습된 대규모 비전‑언어 모델(VLM)인 CLIP을 다운스트림 이미지 분류 작업에 효율적으로 적응시키기 위해 두 가지 핵심 아이디어를 결합한다. 첫 번째는 텍스트 인코더에 두 종류의 학습 가능한 프롬프트(positive, negative)를 삽입하는 ‘dual‑prompt’ 설계이다. Positive 프롬프트는 기존의 CoOp·CoCoOp 방식과 유사하게 클래스별 토큰 앞에 M개의 연속적인 컨텍스트 토큰을 추가해, 시각 임베딩과 텍스트 임베딩 사이의 코사인 유사도를 극대화한다. 이를 통해 경량화된 시각 프롬프트(VPT)와의 정렬이 강화되어, 제한된 라벨 데이터에서도 높은 분류 신뢰도를 확보한다.

두 번째는 부정 프롬프트를 역방향으로 학습시켜 ‘정답 확률(p_clean)’을 명시적으로 추정한다는 점이다. 식 (3)에서 정의된 p_clean은 이미지와 positive 텍스트 임베딩 사이의 유사도와 negative 텍스트 임베딩 사이의 유사도를 온도 파라미터 τ로 스케일링한 후, softmax 형태로 정규화한 값이다. 이 확률은 샘플이 현재 pseudo‑label을 얼마나 신뢰할 수 있는지를 직접적으로 나타내며, 기존의 엔트로피·마진 기반 불확실성 추정보다 모델 내부 구조를 활용한다는 점에서 이점이 있다.

학습 목표는 두 손실 L₁, L₂의 가중합으로 구성된다. L₁은 positive 프롬프트와 시각 프롬프트를 이용해 cross‑entropy를 최소화함으로써 클래스 구분 능력을 강화한다. L₂는 p_clean을 이용해 정답 라벨에 대해서는 positive‑negative 유사도 차이를 크게, 노이즈 라벨에 대해서는 반대로 학습시켜 부정 프롬프트가 불확실성을 정확히 포착하도록 한다. λ 파라미터로 두 손실의 비중을 조절함으로써 불확실성 모델링과 분류 성능 사이의 트레이드오프를 유연하게 제어한다.

활성학습 파이프라인에서는 매 라운드마다 모델을 재초기화하고, 현재 라벨링된 집합 S_L과 p_clean 기반으로 선정된 고신뢰 pseudo‑label 집합 S_U를 함께 학습한다. 이후 전체 미라벨 데이터에 대해 새로운 pseudo‑label과 p_clean을 계산하고, 클래스별로 가장 낮은 p_clean을 가진 샘플을 불확실성 기반 쿼리로 선택한다. 동시에 각 클래스에서 p_clean이 높은 상위 k개 샘플을 confident sample로 채택해 다음 라운드 학습에 포함한다. 이렇게 함으로써 (1) 클래스 균형을 유지하면서 예산을 효율적으로 사용하고, (2) 확인 편향을 방지하기 위해 매 라운드마다 모델을 새로 학습한다는 두 가지 설계 목표를 달성한다.

실험에서는 CLIP‑ViT‑B/16을 기반으로 다양한 데이터셋(예: EuroSAT, Domain‑Specific Remote Sensing 등)과 세 가지 파인튜닝 파라다임(Full‑FT, VPT‑Only, Dual‑Prompt)에서 6 라운드, 매 라운드당 전체 데이터의 1%를 라벨링하는 설정을 적용했다. 결과는 기존 엔트로피, CoreSet, ALOR 등 최신 활성학습 기법을 동일 예산 하에 능가했으며, 특히 초기 라운드에서의 성능 격차가 두드러졌다. 이는 부정 프롬프트가 제공하는 정량적 불확실성 신호가 초기 모델 불확실성을 정확히 포착해, 초기 샘플 선택의 효율성을 크게 높였기 때문이다.

요약하면, 이 논문은 (1) 텍스트 프롬프트를 양방향으로 설계해 모델 자체가 불확실성을 학습하도록 만든 혁신적인 구조, (2) 이를 활성학습 루프에 자연스럽게 통합해 라벨링 비용을 최소화하면서도 높은 일반화 성능을 달성한 실용적인 프레임워크를 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기