프랙탈 비전 트랜스포머와 레지스터의 효과 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 최근 NoPE(위치 인코딩 없이)와 레지스터 토큰이 대형 언어·비전 모델에 미치는 영향을 바탕으로, 요약 토큰과 마스크 기반 프랙탈 구조를 도입한 Fractal ViT를 제안한다. 실험 결과, 프랙탈 마스크는 성능 향상을 가져오지 못했으며, 레지스터 토큰이 기존 ViT 대비 미세한 개선만을 보였다.
상세 분석
ViT는 입력 패치를 토큰화한 뒤 전통적인 트랜스포머 인코더에 넣어 전역 어텐션을 수행한다. 이때 토큰 순서를 구분하기 위해 위치 인코딩이 필수적이었다. 최근 언어 모델에서 NoPE(위치 인코딩 없이)와 인과적 마스크만으로도 충분히 순서 정보를 복원한다는 결과가 보고되었으며, 대형 ViT에서도 “레지스터”라 불리는 고정 노름의 토큰을 추가하면 고노름 아웃라이어 토큰을 억제해 성능이 약간 개선된다는 연구가 있었다. 저자들은 이 두 흐름을 결합해, 입력 토큰과는 독립적인 “요약 토큰(summary tokens)”을 도입하고, 요약 토큰과 해당 서브패치(k×k) 사이에 마스크를 적용해 프랙탈 형태의 어텐션 패턴을 만든다. 구체적으로는 (1) 모든 일반 토큰은 서로 어텐션하고, (2) 요약 토큰끼리는 서로 어텐션하지만 각 요약 토큰은 자신에게 할당된 k×k 토큰에만 어텐션한다. (3) 전역
댓글 및 학술 토론
Loading comments...
의견 남기기