Vision Transformer MLP 용량 절감이 성능 향상을 이끈다
📝 Abstract
Although scaling laws and many empirical results suggest that increasing the size of Vision Transformers often improves performance, model accuracy and training behavior are not always monotonically increasing with scale. Focusing on ViT-B/16 trained on ImageNet-1K, we study two simple parameter-reduction strategies applied to the MLP blocks, each removing 32.7% of the baseline parameters. Our GroupedMLP variant shares MLP weights between adjacent transformer blocks and achieves 81.47% top-1 accuracy while maintaining the baseline computational cost. Our ShallowMLP variant halves the MLP hidden dimension and reaches 81.25% top-1 accuracy with a 38% increase in inference throughput. Both models outperform the 86.6M-parameter baseline (81.05%) and exhibit substantially improved training stability, reducing peak-to-final accuracy degradation from 0.47% to the range 0.03% to 0.06%. These results suggest that, for ViT-B/16 on ImageNet-1K with a standard training recipe, the model operates in an overparameterized regime in which MLP capacity can be reduced without harming performance and can even slightly improve it. More broadly, our findings suggest that architectural constraints such as parameter sharing and reduced width may act as useful inductive biases, and highlight the importance of how parameters are allocated when designing Vision Transformers. All code is available at: https://github.com/AnanthaPadmanaban-KrishnaKumar/ parameter-efficient-vit-mlps.
💡 Analysis
본 연구는 Vision Transformer(ViT) 계열 모델이 일반적으로 “더 크게, 더 깊게” 설계될수록 성능이 향상된다는 기존 스케일링 법칙에 대한 중요한 예외를 제시한다. ViT‑B/16을 기준으로 두 가지 파라미터 절감 기법—GroupedMLP와 ShallowMLP—을 적용했을 때, 오히려 정확도가 상승하고 학습 안정성이 크게 개선되는 현상이 관찰되었다. 첫 번째 기법인 GroupedMLP는 인접 블록 사이에 MLP 가중치를 공유함으로써 전체 파라미터 수를 32.7 % 감소시킨다. 가중치 공유는 모델이 동일한 변환을 여러 레이어에 반복 적용하도록 강제함으로써, 불필요한 중복 표현을 억제하고 파라미터 효율성을 높인다. 이 과정에서 연산량은 변하지 않지만, 파라미터가 감소함에 따라 과적합 위험이 감소하고, 결과적으로 81.47 %라는 최고 정확도를 달성한다. 두 번째 기법인 ShallowMLP는 MLP 내부 차원을 절반으로 축소한다. 이는 각 트랜스포머 블록 내 비선형 변환 능력을 제한하지만, 동시에 메모리 사용량과 연산 지연을 크게 낮춘다. 실제로 추론 속도가 38 % 향상되었으며, 정확도는 81.25 %로 기본 모델을 앞선다. 두 변형 모두 “peak‑to‑final accuracy degradation”를 0.47 %에서 0.03 %~0.06 % 수준으로 감소시켰다. 이는 학습 초기에 급격히 상승하던 정확도가 최종 에포크까지 유지되는 안정성을 의미한다. 이러한 현상은 ViT‑B/16이 ImageNet‑1K 데이터셋과 표준 학습 레시피 하에서 과다 파라미터화(over‑parameterized)된 상태임을 시사한다. 즉, 모델이 실제 필요한 표현 능력보다 훨씬 많은 파라미터를 보유하고 있어, 일부를 제거해도 성능 손실이 없으며 오히려 일반화가 개선될 수 있다. 더 나아가, 파라미터 공유와 폭 감소와 같은 구조적 제약이 새로운 귀납적 편향(inductive bias)으로 작용해, 모델이 보다 효율적인 특징을 학습하도록 유도한다는 점은 향후 ViT 설계에 중요한 시사점을 제공한다. 특히, 대규모 사전학습이나 멀티태스크 환경에서 파라미터 효율성을 극대화하려는 연구자들에게는, 단순히 레이어를 늘리는 것이 아니라 파라미터 배분 전략을 재고하는 것이 더 큰 성능 향상을 가져올 수 있음을 강조한다. 향후 연구에서는 이러한 파라미터 절감 기법을 다른 ViT 변형(예: Swin‑Transformer, DeiT)이나 더 큰 데이터셋(예: ImageNet‑21K)에도 적용해, 일반화 가능성을 검증할 필요가 있다. 또한, 공유된 MLP 가중치가 어떤 종류의 시각적 패턴을 더 잘 포착하는지, 그리고 차원 축소가 어떤 종류의 피처에 영향을 미치는지에 대한 분석이 진행된다면, 모델 설계 원칙을 보다 정교하게 정립할 수 있을 것이다.
📄 Content
스케일링 법칙과 다수의 실증 결과는 Vision Transformer의 크기를 늘리면 성능이 향상된다고 제시하지만, 모델 정확도와 학습 행동이 규모에 따라 단조롭게 증가하는 것은 아니다. ImageNet‑1K에서 훈련된 ViT‑B/16을 대상으로, MLP 블록에 두 가지 간단한 파라미터 감소 전략을 적용하였다. 각각은 기본 파라미터의 32.7 %를 제거한다. GroupedMLP 변형은 인접한 트랜스포머 블록 간에 MLP 가중치를 공유하여 연산 비용은 유지하면서 81.47 % top‑1 정확도를 달성한다. ShallowMLP 변형은 MLP 은닉 차원을 절반으로 줄여 추론 처리량을 38 % 증가시키고 81.25 % top‑1 정확도를 기록한다. 두 모델 모두 86.6 M 파라미터를 가진 기본 모델(81.05 %)을 능가하며, 학습 안정성도 크게 개선되어 정확도 감소폭을 0.47 %에서 0.03 %~0.06 % 수준으로 낮춘다. 이러한 결과는 ImageNet‑1K와 표준 학습 레시피 하에서 ViT‑B/16이 과다 파라미터화된 영역에 존재함을 시사한다. 즉, MLP 용량을 줄여도 성능이 손상되지 않으며 오히려 약간 향상될 수 있다. 더 넓게는 파라미터 공유와 폭 감소와 같은 구조적 제약이 유용한 귀납적 편향으로 작용할 수 있음을 보여주며, Vision Transformer 설계 시 파라미터 배분 방식의 중요성을 강조한다. 모든 코드는 https://github.com/AnanthaPadmanaban-KrishnaKumar/parameter-efficient-vit-mlps 에서 확인할 수 있다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.