이미지 임베딩을 위한 셀프슈퍼바이즈드 사전학습 Selfie

본 논문은 이미지 분야에 BERT와 유사한 마스크드 사전학습 방식을 적용한 Selfie(SELF‑supervised Image Embedding) 방법을 제안한다. 기존 자기지도 학습은 픽셀값을 직접 예측하거나 이미지 전체를 재구성하는 방식이 많았지만, Selfie는 마스크된 패치를 동일 이미지에서 추출한 방해 패치와 비교해 올바른 패치를 선택하도록 학습한다. 이를 위해 Contrastive Predictive Coding 손실을 활용해 분류 형태의 목표를 설정함으로써 연속적인 이미지 데이터에서도 효과적인 학습이 가능하도록 설계하였다. 아키텍처는 두 부분으로 나뉜다. 첫 번째는 패치별 특징을 추출하는 ‘패치 처리 네트워크 P’이며, 이는 ResNet‑50의 앞 3 블록(ResNet‑36)으로 구현된다. 두 번째는 인코더에서 추출된 패치 특징들을 하나의 전역 벡터 u로 요약하는 ‘어텐션 풀링 네트워크 A’이다. A는 Transformer 레이어를 사용해 학습 가능한 풀링 방식을 제공한다. 디코더는 마스크된 패치들을 다시 처리하고, 인코더의 전역 벡터 u에 마스크 위치의 위치 임베딩을 더해 질의 벡터 v를 만든다. v와 디코더에서 나온 각 패치 특징 h 사이의 내적을 통해 유사도를 계산하고, 정답 패치를 선택하도록 소프트맥스와 교차 엔트로피 손실을 적용한다. 패치 샘플링은 이미지 크기에 따라 8×8(32×32 이미지) 혹은 32×32(224×224 이미지) 격자를 만든다. 작은 이미지에서는 각 격자마다 독립적인 위치 임베딩을 학습하고, 큰 이미지에서는 행·열 임베딩을 합산해 파라미터 수를 절감한다. 또한, 디코더는 한 번에 여러 마스크 위치를 예측하도록 구현돼 연산 효율성을 크게 높인다. 학습 절차는 두 단계로 구성된다. (1) 전체 라벨이 없는 데이터를 사용해 사전학습을 수행하고, (2) 라벨이 있는 작은 서브셋을 이용해 전체 ResNet‑50을 파인튜닝한다. 사전학습 단계에서는 전체 훈련 세트를 사용해 패치 마스크 비율(p)을 75 % 혹은 50 %로 설정하고, 120 k 스텝 동안 Momentum Optimizer(Nesterov=0.9)와 코사인 학습률 스케줄을 적용한다. 파인튜닝 단계에서는 사전학습된 앞 3 블록을 초기화하고, 나머지 블록은 표준 초기화 후 전체 네트워크를 엔드‑투‑엔드로 학습한다. 실험은 CIFAR‑10, ImageNet‑32, ImageNet‑224 세 데이터셋에서 라벨 비율을 5 %, 10 %, 20 %, 100 %로 변형해 수행되었다. 각 실험은 하이퍼파라미터 튜닝 후 5번의 서로 다른 시드로 재현성을 확보했으며, 평균 정확도와 표준편차를 보고한다. 결과는 모든 설정에서 Selfie가 기본 감독 학습 대비 정확도를 향상시켰음을 보여준다. 특히 ImageNet‑224에서 라벨이 5 %(클래스당 60개)일 때, 평균 정확도가 35.6 %에서 46.7 %로 11.1 %p 상승하였다. CIFAR‑10과 ImageNet‑32에서도 비슷한 수준의 개선이 관찰되었다. 학습 안정성 측면에서도 큰 이득이 있었다. CIFAR‑10(클래스당 400개)에서는 최종 정확도 표준편차가 3배 감소했으며, ImageNet‑32에서는 5 % 라벨 상황에서 8배 감소했다. 이는 사전학습된 전역 표현이 파인튜닝 단계에서 초기 가중치를 더 유리하게 만들어 최적화 경로를 안정화시키는 효과를 의미한다. 논문의 한계로는 ResNet‑50 기반 패치 처리 네트워크가 계산 비용이 높고, 마스크 비율 및 패치 크기 선택이 데이터셋에 따라 민감하게 작용한다는 점을 들 수 있다. 향후 연구에서는 경량화된 패치 인코더, 다중 스케일 마스크, 혹은 비동형 패치 배치를 탐색함으로써 효율성을 높이고 다양한 비전 태스크에 적용 가능성을 확대할 수 있을 것이다.

이미지 임베딩을 위한 셀프슈퍼바이즈드 사전학습 Selfie

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기