EMMA: 효율적인 멀티모달 이해, 생성, 편집을 위한 통합 아키텍처
초록
EMMA는 멀티모달 이해, 텍스트-이미지 생성, 이미지 편집을 하나의 통합 모델로 처리하는 효율적인 아키텍처입니다. 고압축 오토인코더와 채널 결합 방식을 통해 시각 토큰 수를 크게 줄여 효율성을 높였으며, 공유-분리 네트워크와 MoE 기법으로 다양한 작업에서 뛰어난 성능을 달성했습니다. 40억 파라미터 규모의 EMMA는 70억 파라미터의 기존 통합 모델들을 능가하고, 전문 멀티모달 모델들과도 경쟁력 있는 결과를 보여줍니다.
상세 분석
EMMA 논문의 핵심 기술적 혁신은 ‘아키텍처 형식의 통일’ 접근법 내에서 발생한 비효율성과 성능 한계를 해결한 데 있습니다. 기존 통합 모델(BAGEL 등)은 이해(Understanding)와 생성(Generation) 브랜치에서 서로 다른 압축률(예: SigLIP 기반 이해 인코더는 32x, FLUX 오토인코더는 8x)을 사용함에 따라, 두 브랜치의 토큰을 융합할 때 토큰 단위로 연결해야 했습니다. 이는 시각 컨텍스트 토큰 수를 급증시켜 연산 효율성을 떨어뜨리는 주요 원인이었습니다.
EMMA는 이 근본적인 문제를 두 가지 설계로 해결합니다. 첫째, 생성용 오토인코더로 32배 고압축 비율의 DCAE를 채택하여 이해 브랜치와 동일한 압축률을 맞춥니다. 이로 인해 두 브랜치에서 추출된 토큰의 형태가 일치하게 되어, 둘째 혁신인 ‘채널별 결합(Channel-wise Concatenation)‘이 가능해집니다. 이전의 토큰 단위 결합은 시공간 차원을 따라 토큰 수가 증가하는 반면, 채널 차원으로 결합하면 토큰 수는 유지된 채 특징 채널 수만 증가합니다. 결과적으로 이미지 편집 같은 상호작용 작업에서 BAGEL 대비 최대 5배 적은 시각 토큰만으로도 시맨틱 정보(이해 브랜치)와 디테일 정보(생성 브랜치)를 효과적으로 융합할 수 있습니다.
네트워크 설계에서의 ‘공유-분리(Shared-and-Decoupled)’ 전략은 다중 작업 학습의 딜레마를 현명하게 해결합니다. 이해 작업은 시맨틱 모델링에, 생성 작업은 시맨틱과 고주파 디테일 모델링에 집중하므로, 초기 레이어에서는 공통된 기초 표현을 공유하도록 설계하고, 작업 특화적인 고수준 추상화가 이루어지는 깊은 레이어에서는 파라미터를 분리합니다. 이는 공유를 통한 지식 전이와 분리를 통한 작업 특화를 동시에 달성하는 전략입니다.
또한, 이해 인코더에 도입된 MoE(Mixture of Experts) 메커니즘은 STEM 이미지와 일반 이미지라는 이질적인 입력 분포를 효과적으로 처리합니다. 기존의 단일 인코더로는 두 도메인 모두에서 최적의 성능을 내기 어려운 반면, 전문가(Expert)를 도입하고 라우터가 동적으로 선택하게 함으로써 약 5천만 개의 추가 파라미터만으로도 다양한 벤치마크에서 지각 능력을 크게 향상시켰습니다. 이 모든 설계는 상대적으로 적은 4B 파라미터와 학습 데이터로, 7B 모델들을 압도하는 성능(MMVet 73.0, GenEval 0.93)을 가능하게 한 토대입니다.
댓글 및 학술 토론
Loading comments...
의견 남기기