제한된 라벨 데이터로 비전 트랜스포머를 풀어내는 반지도 학습 마스크드 오토인코더
초록
SSMAE는 마스크드 이미지 복원과 라벨이 있는·없는 데이터를 동시에 학습하는 프레임워크로, 검증 정확도가 일정 수준을 넘을 때만 고신뢰 의사라벨을 사용한다. CIFAR‑10/100에서 라벨 비율이 낮을수록 기존 ViT·MAE 대비 9% 이상 향상된 정확도를 기록한다.
상세 분석
본 논문은 Vision Transformer(ViT)의 데이터 효율성을 높이기 위해 마스크드 오토인코더(MAE)와 반지도 학습(pseudo‑labeling)을 결합한 SSMAE 프레임워크를 제안한다. 핵심 아이디어는 두 가지 손실을 동시에 최적화하는 것이다. 첫 번째는 기존 MAE와 동일하게 입력 이미지의 일정 비율(75%)을 마스크하고, 남은 토큰만을 인코더에 통과시켜 디코더가 마스크된 패치를 복원하도록 하는 재구성 손실(L_recon)이다. 두 번째는 라벨이 있는 샘플에 대해 전통적인 교차 엔트로피 손실(L_sup)과, 고신뢰 의사라벨을 가진 비라벨 샘플에 대해 동일한 교차 엔트로피 손실(L_pseudo)을 가중치 λ_p와 함께 결합한 분류 손실(L_cls)이다. 여기서 중요한 점은 의사라벨을 언제, 어떻게 사용할지를 결정하는 ‘동적 게이트’ 메커니즘이다. 모델이 검증 셋에서 70% 이상의 정확도와 95% 이상의 예측 신뢰도를 달성하고, 약한 변형과 강한 변형에 대한 예측이 일치할 때만 의사라벨을 활성화한다. 이 조건을 만족하지 못하면 의사라벨링을 완전히 차단해 확인 편향(confirmation bias)을 방지한다. 또한, 게이트가 활성화된 이후에도 검증 정확도가 연속적으로 하락하면 자동으로 비활성화한다는 피드백 루프를 도입해 안정성을 높였다. 아키텍처 측면에서는 공유된 인코더를 사용해 두 작업을 동시에 수행한다. 마스크된 입력에 대해서는 디코더가 복원을 담당하고, 라벨이 있는·없는 모든 입력에 대해서는
댓글 및 학술 토론
Loading comments...
의견 남기기