VLM 기반 약한 지도 학습을 위한 협업 일관성 정규화와 노이즈 부분 라벨 정제

VLM 기반 약한 지도 학습을 위한 협업 일관성 정규화와 노이즈 부분 라벨 정제
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습된 비전‑언어 모델(VLM)로부터 자동 생성된 노이즈가 섞인 부분 라벨을 활용해 효율적인 다운스트림 적응을 수행한다. 두 개의 네트워크가 서로의 신뢰도 높은 샘플을 교환하며 공동으로 라벨을 정제하고, 라벨·특징 양쪽 공간에 일관성 정규화를 적용한다. 또한 대비학습, 클래스 프로토타입 유지, 교대 최적화 등 과적합 방지 기법을 도입해 성능을 크게 향상시킨다.

상세 분석

이 연구는 기존의 대칭 잡음 가정과 달리 VLM이 생성하는 잡음이 인스턴스 의존적이며, 사전 학습된 모델의 내재된 편향을 그대로 반영한다는 점을 핵심 문제로 제시한다. 이를 해결하기 위해 저자는 협업 일관성 정규화(Co‑Reg) 프레임워크를 설계했으며, 주요 구성 요소는 다음과 같다.

  1. 두 네트워크 기반 공동 라벨 정제

    • 두 개의 독립적인 분류기 A와 B를 동시에 학습한다. 각 네트워크는 자체적으로 신뢰도 높은 샘플(‘신뢰 집합’)과 불확실하거나 잡음이 의심되는 샘플(‘노이즈 집합’)을 구분한다.
    • 신뢰 집합은 상대 네트워크에 전달되어 학습에 사용되고, 노이즈 집합은 코‑의사라벨링(co‑pseudo‑labeling) 과정을 거쳐 다중 데이터 증강(view)으로부터 얻은 예측을 평균·정규화해 새로운 라벨 분포를 만든다. 이렇게 하면 VLM이 고신뢰로 잘못 판단한 라벨도 교차 검증을 통해 교정될 수 있다.
  2. 라벨·특징 일관성 정규화

    • 라벨 공간: 두 네트워크가 생성한 라벨 분포가 서로 KL‑다이버전스 혹은 JS‑다이버전스로 최소화되도록 손실을 추가한다. 이는 서로 다른 초기화와 학습 경로를 가진 모델이 동일한 라벨에 수렴하도록 강제한다.
    • 특징 공간: 두 네트워크의 임베딩을 동일한 프로젝션 헤드에 매핑하고, 클래스별 프로토타입을 공유한다. 현재 샘플 임베딩과 모든 프로토타입 간 코사인 유사도를 계산해, 라벨 분포와 일치하도록 프로토타입 정렬 손실을 적용한다. 이 과정은 잡음 라벨이 특징 공간에 과도히 영향을 미치는 것을 억제한다.
  3. 과적합 방지 전략

    • 대조학습(contrastive learning) 모듈을 삽입해 동일 이미지의 서로 다른 증강 버전이 가까운 임베딩을 갖도록 학습한다. 이는 라벨이 불확실한 경우에도 의미 있는 특징을 학습하게 만든다.
    • 교대 최적화: 라벨 정제 단계와 특징 학습 단계를 번갈아 수행한다. 라벨이 업데이트된 후에 특징을 재학습하고, 다시 라벨을 재정제하는 순환 구조는 EM‑like 수렴 특성을 보인다.
    • 클래스 프로토타입 유지: 프로토타입은 전체 배치가 아닌 지수 이동 평균으로 업데이트되어 급격한 라벨 변동에 대한 안정성을 제공한다.
  4. Few‑Shot 확장

    • 완전한 라벨이 없는 상황에서도 소수의 인간 라벨을 활용할 수 있도록 설계되었다. 인간 라벨은 프로토타입 초기화와 라벨 정제 단계에서 ‘신뢰 샘플’로 직접 투입되어, 전체 시스템의 성능을 추가로 끌어올린다.
  5. 실험 및 결과

    • CIFAR‑10/100, ImageNet‑R, 그리고 도메인 특화 데이터셋(의료·위성 이미지)에서 CLIP, LLaVA, GPT‑4V 등 서로 다른 VLM을 annotator로 사용해 후보 라벨을 생성하였다.
    • 제안 방법은 기존 NPLL 알고리즘(예: LNL‑Flywheel, R‑CAL)보다 평균 5~9% 높은 정확도를 달성했으며, 특히 인스턴스‑의존 잡음 비율이 40% 이상일 때 차이가 크게 나타났다.
    • Knowledge distillation과 few‑shot fine‑tuning과 비교했을 때, Co‑Reg은 파라미터 효율성(학생 모델 1/10 파라미터)과 추론 속도에서 유리하면서도, 성능 격차를 2~3% 이하로 축소했다.
    • Ablation study에서는 라벨 일관성, 특징 일관성, 대조학습 각각을 제거했을 때 성능이 평균 2.3%, 1.8%, **1.5%**씩 감소함을 확인했다.

핵심 인사이트는 VLM이 제공하는 ‘자동 라벨’이 단순히 noisy single‑label이 아니라 구조화된 부분 라벨 집합이라는 점이다. 이 집합을 그대로 사용하면 기존 PLL 기법이 가정하는 ‘정답이 반드시 포함’한다는 전제가 깨지지만, Co‑Reg은 두 네트워크 간 상호 검증과 일관성 정규화를 통해 이러한 구조적 잡음을 효과적으로 정제한다는 점이다. 또한 클래스 프로토타입을 공유함으로써 라벨 불확실성을 특징 공간에 전이시키는 위험을 최소화한다.

전반적으로 이 논문은 “VLM‑기반 자동 라벨 → NPLL → 협업 정규화” 라는 새로운 파이프라인을 제시함으로써, 대규모 라벨링 비용을 크게 절감하면서도 강건한 다운스트림 모델을 구축할 수 있음을 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기