멀티모달 자동회귀 거대 모델 ERNIE 5.0의 혁신적 설계와 학습 전략
초록
ERNIE 5.0은 텍스트·이미지·비디오·오디오를 하나의 토큰 시퀀스로 통합해 차세대 자동회귀 기반을 제공한다. 초희소 Mixture‑of‑Experts(MoE)와 모달리티‑불변 라우팅, 그리고 한 번의 사전학습으로 다양한 깊이·폭·스파스성을 갖는 서브모델을 생성하는 탄력적(elastic) 학습 방식을 도입해 트릴리언 파라미터 규모에서도 효율적인 학습·추론을 가능하게 한다. 사후 단계에서는 통합 강화학습(UMRL)과 편향‑보정 리플레이 버퍼, 엔트로피 붕괴 완화 기법 등을 적용해 안정적인 멀티모달 생성·추론 능력을 확보한다.
상세 분석
ERNIE 5.0의 핵심 설계는 ‘통합 자동회귀 백본 + 초희소 MoE’라는 두 축으로 요약된다. 먼저, 텍스트, 이미지, 비디오, 오디오를 동일한 토큰 공간에 매핑하고, Next‑Group‑of‑Tokens Prediction이라는 단일 목표로 학습함으로써 모달리티 간 경계와 최적화 불일치를 제거한다. 이미지·비디오는 다중 스케일 2D 토크나이저를 3D 컨볼루션 토크나이저로 확장해 시공간 정보를 일관되게 인코딩하고, 오디오는 코덱 기반 토크나이저로 스펙트로그램을 시퀀스화한다.
초희소 MoE는 활성화 비율을 3% 이하로 낮추면서도 트릴리언 파라미터 수준의 용량을 확보한다. 라우터는 모달리티 식별자를 사용하지 않고, 통합 토큰 표현에 기반해 전문가를 선택한다. 이 ‘모달리티‑불변 라우팅’은 전문가가 자연스럽게 모달리티별 특성을 학습하도록 유도하면서도, 서로 다른 모달리티 간 지식 전이를 촉진한다. 로드 밸런싱을 위한 보조 손실을 배제하고, 최신 부하 균형 기법을 적용해 전문가 활용 효율을 유지한다.
탄력적 학습(elastic training)은 사전학습 단계에서 깊이·폭·스파스성을 동적으로 샘플링한다. 각 배치마다 서로 다른 서브모델을 선택해 동일한 역전파를 수행함으로써, 파라미터 공유를 극대화하고 서브모델이 전체 모델의 지식을 즉시 흡수하도록 만든다. 이 방식은 별도 압축·파인튜닝 없이도 메모리·지연시간 제약에 맞는 다양한 규모의 모델을 즉시 배포할 수 있게 한다.
사후 단계에서는 통합 강화학습(UMRL)을 적용한다. 초희소 MoE와 멀티모달 입력의 결합은 샘플링 편향, 희소 보상, 엔트로피 붕괴 등 최적화 난제를 야기한다. 이를 해결하기 위해 (1) 편향‑보정 리플레이 버퍼로 롤아웃 효율을 높이고 데이터 분포를 균형 있게 유지하고, (2) 다중 중요도 샘플링과 양성 마스크를 통한 엔트로피 관리, (3) 어려운 태스크에 대해 힌트 기반 보조 보상을 제공하는 어댑티브 힌트 기법을 도입한다. 이러한 설계는 정책 업데이트의 안정성을 확보하고, 멀티모달 생성 품질을 크게 향상시킨다.
인프라 측면에서는 토크나이저와 MoE 백본을 분리해 각각 최적의 병렬 전략을 적용하고, FlashMask를 활용해 이질적인 어텐션 마스크를 효율적으로 처리한다. 하이브리드 파라렐리즘과 세분화된 메모리 관리 기법을 결합해 트릴리언 파라미터 규모의 학습을 실현한다.
평가 결과, 텍스트·비전·오디오 벤치마크 전반에서 기존 전용 모델들을 능가하거나 동등한 성능을 기록했으며, 라우팅 top‑k를 25%로 감소시켜도 15% 이상의 디코딩 속도 향상을 달성했다. 또한, 전체 파라미터의 35.8%만 활성화해도 거의 완전한 성능을 유지함으로써, 초희소 MoE와 탄력적 학습이 대규모 멀티모달 모델의 효율성을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기