협업형 무주석 비전‑언어 모델 파인튜닝
초록
본 논문은 인간 라벨 없이 대규모 비전‑언어 모델(VLM)을 다운스트림 과제에 적응시키는 새로운 프레임워크인 Collaborative Fine‑Tuning(CoFT)를 제안한다. CoFT는 양방향 협업을 수행하는 두 개의 CLIP 서브모델과, 긍정·부정 텍스트 프롬프트를 동시에 학습하는 듀얼‑프롬프트 전략을 도입한다. 초기 고신뢰 샘플에 대해 파라미터 효율적(PEFT) 미세조정을 수행한 뒤, 두 모델이 서로 생성·검증한 의사라벨을 기반으로 전체 데이터에 대해 전면 파인튜닝한다. CoFT+는 여기에 점진적 라벨 정제, 모멘텀 대비 학습, LLM‑생성 프롬프트를 추가해 성능을 더욱 끌어올린다. 실험 결과, 제안 방법은 기존 무감독 자기학습 기법을 크게 앞서며, 심지어 몇 샷 라벨링 기반 베이스라인보다도 우수한 결과를 보인다.
상세 분석
CoFT는 기존 VLM 자기학습이 안고 있던 두 가지 핵심 문제—신뢰도가 낮은 샘플의 활용 부족과 확신 기반 필터링의 편향성—을 동시에 해결한다. 첫 번째 단계에서는 사전 학습된 CLIP을 이용해 전체 이미지에 대한 제로샷 예측을 수행하고, 클래스별 상위 K개의 고신뢰 샘플만을 추출한다. 이때 시각적 프롬프트 튜닝(VPT)과 텍스트 프롬프트 튜닝을 결합한 경량 파라미터만을 업데이트함으로써 과적합 위험을 최소화한다. 특히, 텍스트 인코더에 긍정 프롬프트와 부정 프롬프트를 각각 학습시키는 듀얼‑프롬프트 메커니즘은 라벨 청결도를 샘플‑별로 정량화한다. 긍정 프롬프트는 실제 라벨과의 유사도를 최대화하고, 부정 프롬프트는 동일 라벨에 대해 유사도를 최소화하도록 설계돼, 두 유사도 차이를 “청정 라벨” 판단 기준으로 활용한다. 이 과정은 사전 정의된 임계값이나 노이즈 비율 가정 없이, 모델 자체가 학습 과정에서 동적으로 임계값을 형성한다는 점에서 혁신적이다.
두 번째 단계에서는 두 개의 독립적인 CLIP 서브모델이 교차 검증을 수행한다. 모델 1이 전체 데이터에 대해 라벨을 생성하면, 모델 2는 해당 라벨에 대해 긍정·부정 프롬프트 유사도 비교를 통해 청정 여부를 판단한다. 청정으로 판정된 샘플은 전체 데이터셋에 대한 전면 파인튜닝에 사용되며, 시각 인코더 전체와 새롭게 추가된 FC 헤드를 동시에 학습한다. 이때 모델 1과 모델 2는 서로 다른 초기화와 파라미터 업데이트 전략을 적용해 다양성을 확보함으로써, 단일 모델 기반 자기학습에서 흔히 발생하는 확신 편향을 효과적으로 억제한다.
CoFT+는 위의 두 단계에 세 가지 추가 요소를 결합한다. 첫째, 초기 고신뢰 라벨을 점진적으로 재평가·갱신하는 반복 PEFT 과정을 도입해 라벨 품질을 지속적으로 향상시킨다. 둘째, 모멘텀 대비 학습(MoCo) 방식을 적용해 시각적 표현의 일관성을 강화하고, 노이즈 라벨에 대한 견고성을 높인다. 셋째, 대규모 언어 모델(LLM)로부터 자동 생성된 프롬프트 템플릿을 활용해 텍스트 프롬프트 공간을 확장한다. 이러한 확장은 특히 클래스 수가 많거나 도메인 특성이 강한 경우에 효과적이다.
실험에서는 ImageNet‑R, CIFAR‑100, Stanford Cars 등 다양한 벤치마크에서 CoFT와 CoFT+가 기존 무감독 방법(UPL, DEFT 등)보다 평균 35%p 높은 정확도를 기록했으며, 15샷 라벨링 기반 파인튜닝보다도 경쟁력을 보였다. 특히, 부정 프롬프트가 시각 적응 모듈(VPT)의 정규화 역할을 수행해, 노이즈가 심한 데이터에서도 안정적인 수렴을 확인할 수 있었다. 전체적으로 CoFT는 라벨 비용을 크게 절감하면서도 VLM의 다운스트림 성능을 극대화하는 실용적인 솔루션으로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기