제한된 라벨 데이터로 비전 트랜스포머를 풀어내는 반지도 학습 마스크드 오토인코더

제한된 라벨 데이터로 비전 트랜스포머를 풀어내는 반지도 학습 마스크드 오토인코더
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SSMAE는 마스크드 이미지 복원과 라벨이 있는·없는 데이터를 동시에 학습하는 프레임워크로, 검증 정확도가 일정 수준을 넘을 때만 고신뢰 의사라벨을 사용한다. CIFAR‑10/100에서 라벨 비율이 낮을수록 기존 ViT·MAE 대비 9% 이상 향상된 정확도를 기록한다.

상세 분석

본 논문은 Vision Transformer(ViT)의 데이터 효율성을 높이기 위해 마스크드 오토인코더(MAE)와 반지도 학습(pseudo‑labeling)을 결합한 SSMAE 프레임워크를 제안한다. 핵심 아이디어는 두 가지 손실을 동시에 최적화하는 것이다. 첫 번째는 기존 MAE와 동일하게 입력 이미지의 일정 비율(75%)을 마스크하고, 남은 토큰만을 인코더에 통과시켜 디코더가 마스크된 패치를 복원하도록 하는 재구성 손실(L_recon)이다. 두 번째는 라벨이 있는 샘플에 대해 전통적인 교차 엔트로피 손실(L_sup)과, 고신뢰 의사라벨을 가진 비라벨 샘플에 대해 동일한 교차 엔트로피 손실(L_pseudo)을 가중치 λ_p와 함께 결합한 분류 손실(L_cls)이다. 여기서 중요한 점은 의사라벨을 언제, 어떻게 사용할지를 결정하는 ‘동적 게이트’ 메커니즘이다. 모델이 검증 셋에서 70% 이상의 정확도와 95% 이상의 예측 신뢰도를 달성하고, 약한 변형과 강한 변형에 대한 예측이 일치할 때만 의사라벨을 활성화한다. 이 조건을 만족하지 못하면 의사라벨링을 완전히 차단해 확인 편향(confirmation bias)을 방지한다. 또한, 게이트가 활성화된 이후에도 검증 정확도가 연속적으로 하락하면 자동으로 비활성화한다는 피드백 루프를 도입해 안정성을 높였다. 아키텍처 측면에서는 공유된 인코더를 사용해 두 작업을 동시에 수행한다. 마스크된 입력에 대해서는 디코더가 복원을 담당하고, 라벨이 있는·없는 모든 입력에 대해서는


댓글 및 학술 토론

Loading comments...

의견 남기기