비전‑언어 인코더 사전학습을 위한 르네상스 프레임워크와 효율적 학습 전략
초록
**
본 논문은 비전‑언어(VL) 인코더 모델의 사전학습 방식을 체계적으로 조사한다. 새롭게 제안한 ‘Renaissance’ 프레임워크를 이용해(1) 모델 일부를 고정(freeze)하여 학습 비용을 크게 절감하면서도 성능 저하를 최소화하고, (2) 텍스트 기반 트랜스포머와 비전 기반 트랜스포머 중 어느 쪽을 기반으로 할 때 성능이 더 좋은지를 비교한다. 실험 결과, 시각 모듈을 고정하면 오히려 소폭 향상이 발생하고, 두‑타워 구조보다 단일‑타워 구조가 무작위 초기화 시 더 높은 성능을 보인다.
**
상세 분석
**
Renaissance는 HuggingFace 허브와 연동해 텍스트 인코더(BERT, ELECTRA 등)와 비전 인코더(ViT, DeiT, DINO 등)를 자유롭게 조합할 수 있는 모듈형 프레임워크이다. 사용자는 구성 파일만 수정해 모델 아키텍처, 임베딩 차원, 교차‑모달 레이어 수, 학습률 등 다양한 하이퍼파라미터를 지정한다. 특히 ‘Freeze Modules During Training’ 옵션을 통해 사전학습 단계에서 시각·텍스트 모듈을 고정할 수 있어 GPU·TPU 사용량을 크게 줄인다.
실험 1에서는 두‑타워 인코더의 시각·텍스트 모듈을 각각 사전학습된 가중치로 초기화한 뒤, (i) 시각 모듈만 고정, (ii) 텍스트 모듈만 고정, (iii) 양쪽 모두 고정한 경우를 비교하였다. 결과는 시각 모듈을 고정했을 때 downstream NLVR2, SNLI‑VE, RefCOCO 등 5가지 벤치마크에서 미세한 성능 향상을 보였으며, 양쪽을 모두 고정하면 약간의 성능 저하가 있더라도 전체 학습 비용이 30‑40% 절감되는 것으로 나타났다. 이는 시각 특징이 사전학습된 이미지 모델에서 이미 충분히 풍부하므로, 추가적인 미세조정이 크게 필요 없음을 시사한다.
실험 2에서는 ‘one‑tower’ 구조와 ‘two‑tower’ 구조를 비교하고, 각각을 (a) 사전학습된 텍스트/비전 가중치로 초기화, (b) 무작위 초기화(Random Init)로 시작했을 때의 성능 차이를 측정했다. 흥미롭게도 one‑tower 모델은 무작위 초기화가 오히려 최고 성능을 달성했으며, 이는 텍스트와 비전 정보가 초기부터 동일한 임베딩 공간에 매핑될 필요가 없고, 학습 과정에서 자연스럽게 융합될 수 있음을 의미한다. 반면 two‑tower 모델은 사전학습된 가중치를 활용했을 때 안정적인 성능을 보였지만, 무작위 초기화 시 급격히 성능이 떨어졌다.
이러한 결과는 VL 인코더 설계 시 두 가지 중요한 지침을 제공한다. 첫째, 대규모 사전학습 비용이 제한된 상황에서는 시각 모듈을 고정하고 교차‑모달 레이어만 학습함으로써 효율성을 크게 높일 수 있다. 둘째, 단일‑타워 구조를 채택하고 무작위 초기화로 학습을 시작하면, 특히 컴퓨팅 자원이 충분히 확보되지 않은 경우에도 경쟁력 있는 성능을 얻을 수 있다.
논문은 또한 기존 VL 프레임워크(HuggingFace, LAVIS 등)와 비교해 더 높은 확장성을 강조한다. 현재 지원되는 데이터셋은 Visual Genome, MSCOCO, Conceptual Captions, SBU Captions이며, downstream 태스크는 NLVR2, SNLI‑VE, RefCOCO, 이미지‑텍스트 검색(MSCOCO·Flickr30k), VQA 등 5가지다. 코드와 구성 파일이 공개될 예정이므로, 연구자들은 손쉽게 새로운 아키텍처를 실험하고, 사전학습·미세조정 파이프라인을 재현·확장할 수 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기