노이즈 라벨에 강한 비전‑언어 프롬프트 학습
초록
본 논문은 CLIP과 같은 비전‑언어 기반 모델에서 프롬프트 학습 시 발생하는 라벨 노이즈 문제를 해결한다. 평균 절대 오차(MAE) 손실을 이용한 PromptMAE가 노이즈에 강인함을 보이며, 텍스트 특징을 프로토타입으로 활용한 최적 수송 기반 데이터 정제 기법 PromptOT와 결합해 두 손실을 각각 노이즈와 클린 데이터에 적용한다. 이를 NLPrompt이라 명명하고, 다양한 노이즈 환경에서 기존 방법 대비 크게 향상된 성능을 입증한다.
상세 분석
NLPrompt의 핵심 아이디어는 두 가지 축으로 정리할 수 있다. 첫째, 프롬프트 학습에 MAE 손실을 적용하면 노이즈 라벨이 모델 파라미터에 미치는 영향을 자연스럽게 억제한다. 기존 연구에서 MAE는 수렴이 느리고 정확도가 낮아 선호되지 않았지만, 비전‑언어 모델의 텍스트‑이미지 정렬 특성 덕분에 프롬프트 파라미터가 고차원 특징 공간에서 빠르게 수렴한다. 논문은 Feature Learning Theory를 빌려, 프롬프트 파라미터 p(t)를 task‑relevant 특징 µ와 task‑irrelevant 특징 ξₗ의 선형 결합으로 표현하고, MAE 손실이 ξₗ에 대한 계수 ϕₗ(t)를 급격히 감소시키는 반면 β(t) (µ와의 정렬 정도)는 유지·증대함을 수식적으로 증명한다. 결과적으로 신호‑대‑노이즈 비율(SNR)이 향상돼 학습 안정성이 확보된다.
둘째, 데이터 정제 단계에서 PromptOT를 도입한다. 기존 OT 기반 샘플 선택은 무작위 프로토타입에 의존해 초기 비용 행렬이 부정확했다. NLPrompt은 사전 학습된 CLIP의 텍스트 인코더에서 각 클래스에 대응하는 텍스트 임베딩을 프로토타입으로 사용한다. 이미지 특징 g와 텍스트 프로토타입 h_c 사이의 코사인 유사도를 비용 행렬 C로 정의하고, 엔트로피 정규화된 Sinkhorn 알고리즘으로 최적 수송 행렬 Q를 계산한다. Q의 행별 최대값을 기준으로 클린/노이즈 샘플을 구분하고, 클린 샘플에는 전통적인 CE 손실, 노이즈 샘플에는 PromptMAE를 적용한다. 이렇게 하면 두 손실의 장점을 동시에 활용하면서, OT가 제공하는 전역적인 분포 정합성도 확보한다.
이론적 분석과 실험 결과는 다음과 같다. (1) MAE 손실만 사용해도 50% 이상 노이즈 상황에서 정확도 저하가 미미하고, 수렴 속도도 CE와 비교해 크게 뒤처지지 않는다. (2) PromptOT를 적용한 NLPrompt은 동일 노이즈 비율에서 기존 CoOp, JoAPR 등 대비 3~7%p의 정확도 향상을 보인다. (3) Ablation study에서 텍스트 프로토타입을 사용하지 않은 OT는 성능이 급격히 떨어짐을 확인해, 비전‑언어 모델의 정렬 특성이 정제 단계에 핵심임을 입증한다.
전반적으로 NLPrompt은 “간단하지만 강력한” 접근법으로, 복잡한 메타‑학습이나 라벨 교정 없이도 비전‑언어 모델의 프롬프트 튜닝을 노이즈 환경에 견고하게 만든다.
댓글 및 학술 토론
Loading comments...
의견 남기기