ViT‑5: 2020년대 중반을 위한 차세대 비전 트랜스포머
초록
ViT‑5는 기존 Vision Transformer의 기본 구조를 유지하면서 최근 5년간 언어 모델에서 검증된 정규화, 활성화, 위치 인코딩, 게이팅, 레지스터 토큰 등을 모듈식으로 현대화한 백본이다. ImageNet‑1k에서 베이스 모델이 84.2% top‑1 정확도를 달성했으며, SiT 기반 확산 모델에 적용했을 때 FID 1.84를 기록해 기존 ViT 대비 확연히 우수한 성능을 보인다.
상세 분석
ViT‑5는 “구조적 보수”라는 관점에서 기존 ViT의 Attention‑FFN 파이프라인을 그대로 두고, 각 블록에 적용되는 핵심 컴포넌트를 최신 언어 모델에서 검증된 형태로 교체한다. 첫 번째로 LayerScale을 도입해 블록 출력에 학습 가능한 스케일링 파라미터 λ를 곱함으로써 깊은 네트워크의 안정성을 크게 향상시켰으며, 이는 사후 정규화(post‑RMSNorm)와 수학적으로 동등함을 실험적으로 확인했다. 두 번째로 정규화 층을 LayerNorm에서 RMSNorm으로 교체했는데, RMSNorm은 평균을 제거하고 분산만을 정규화함으로써 불필요한 시프트 노이즈를 감소시키고 연산 비용을 약간 절감한다. 세 번째로 활성화 함수는 최신 LLM에서 널리 쓰이는 SwiGLU 대신 기존 GeLU를 유지한다. 실험에서는 LayerScale와 SwiGLU를 동시에 사용할 경우 채널‑와이즈 게이팅이 과도하게 중첩돼 희소성이 과도하게 증가, 즉 ‘오버게이팅’ 현상이 발생해 성능이 저하되는 것을 발견했다. 네 번째로 위치 인코딩은 절대 위치 임베딩(APE)과 2‑D Rotary Positional Embedding(RoPE)을 병행한다. RoPE만 사용하면 패치 플립에 대한 완전 불변성이 생겨 복잡한 공간 추론에 제약이 되지만, APE와 결합하면 절대적인 공간 정보를 보존하면서도 상대적 거리 정보를 활용해 해상도 변화에 강인한 특성을 얻는다. 다섯 번째로 레지스터 토큰을 도입해 입력 시퀀스에 학습 가능한 전역 토큰을 추가함으로써, 특히 고주파 RoPE와 결합했을 때 토큰 간 상호작용이 강화돼 시각적 패턴 인식과 장거리 의존성 모델링이 개선된다. 이러한 모듈들을 조합한 결과, ViT‑5‑Base는 동일한 FLOPs 조건에서 DeiT‑III‑Base(83.8%)보다 0.4%p 높은 84.2% top‑1을 기록했으며, 확산 모델에 적용했을 때 FID 1.84(기존 2.06)로 이미지 생성 품질에서도 현저히 앞섰다. 또한 동적 해상도 테스트에서 224→512까지 정확도 저하가 거의 없으며, 해상도가 커질수록 성능이 꾸준히 상승하는 스케일러블한 특성을 보였다. 전체적으로 ViT‑5는 기존 ViT의 단순함을 유지하면서도 최신 정규화·위치·게이팅 기법을 체계적으로 통합해, 중간 규모 모델에서도 학습 안정성과 표현력, 그리고 다양한 비전 태스크 전이 성능을 동시에 끌어올린 설계라고 평가할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기