동적 전문가 혼합으로 시각 자동회귀 모델 효율 향상
초록
시각 자동회귀 모델(VAR)의 다단계 토큰 생성 과정에서 발생하는 중복 연산을 줄이기 위해, 저자들은 동적 Mixture‑of‑Experts(MoE) 라우터를 도입하였다. 토큰 복잡도와 해상도에 따라 전문가를 선택하는 스케일‑인식 임계값 τ를 적용함으로써, 마지막 세 단계에서만 20 % 정도의 FLOP를 절감하고 11 % 빠른 추론 속도를 달성하면서도 기존 밀집 모델과 동등한 이미지 품질(FID 차이 <1 %)을 유지한다.
상세 분석
본 논문은 최근 이미지 생성 분야에서 주목받고 있는 Visual Autoregressive Model(VAR)의 구조적 한계를 정확히 짚어낸다. VAR는 저해상도 토큰을 순차적으로 예측하고, 각 단계마다 전체 Transformer 블록을 호출한다. 해상도가 높아질수록 토큰 수가 제곱적으로 증가해 연산량이 급증하는데, 기존 연구에서는 토큰별 복잡도 차이를 활용한 동적 할당을 전혀 고려하지 않았다. 저자들은 이러한 문제를 해결하기 위해 두 가지 핵심 아이디어를 제시한다. 첫째, 기존 Feed‑Forward Network(FFN)를 다수의 전문가(Expert)로 분할하고, Hoyer 정규화를 통해 사전 학습 단계에서 가중치를 희소화한다. 이 과정에서 각 전문가가 담당하는 특성 공간이 명확히 구분되며, k‑means 클러스터링을 이용해 균형 잡힌 전문가 집합을 만든다. 둘째, 라우터 R을 회귀 모델로 설계해 입력 토큰에 대해 각 전문가 출력의 ℓ₂‑norm을 예측하도록 학습한다. 추론 시에는 상대적 임계값 τ를 적용해, R_i(x) ≥ τ·max_j R_j(x) 를 만족하는 전문가만 활성화한다. 특히 τ는 스케일별로 다르게 설정(τ₁<τ₂<…<τ_S)되어, 저해상도 단계에서는 다수의 전문가가 동작하고, 고해상도 단계에서는 소수만 선택된다. 이는 “fine‑scale 토큰은 정보가 이미 충분히 정제돼 있어 연산량을 크게 줄여도 품질 저하가 적다”는 직관에 기반한다. 실험에서는 사전 학습된 VAR‑d16 모델을 두 번 fine‑tune한 뒤, 마지막 세 스케일에만 MoE 레이어를 삽입하고 τ를 0.6~0.8 사이로 조정하였다. 결과는 FLOP 19 % 감소, wall‑clock 시간 11 % 단축, FID 1 % 이내 차이로 나타났다. 추가적인 Ablation 연구에서는 Hoyer 정규화가 초기 스케일에서만 희소성을 유발하고, ReLU‑화가 전체적으로 더 큰 희소성을 만든다는 점, 전문가 수와 크기를 조절해 MoE 적용 범위를 제한해야 실제 속도 향상이 가능하다는 점을 확인했다. 또한, τ를 전 스케일에 동일하게 적용하면 초기 단계에서 발생한 오류가 후속 단계에 전파돼 품질이 급격히 떨어지는 것을 보여, 스케일‑인식 임계값 설계가 핵심임을 입증한다. 마지막으로, 모델 깊이를 20층으로 늘렸을 때 FLOP 절감 비율이 더욱 커지는 현상을 관찰했는데, 이는 깊은 모델이 더 많은 중복 연산을 포함하고 있어 동적 할당의 효율이 크게 발휘된다는 의미다. 전체적으로 이 논문은 토큰‑레벨과 해상도‑레벨 두 축에서 동적 계산을 동시에 최적화함으로써, VAR의 효율성을 크게 개선하면서도 품질을 유지하는 실용적인 방법을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기