모달리티 갭을 해소한 대규모 멀티모달 언어 모델 학습 전략
초록
본 논문은 시각·언어 임베딩 사이에 존재하는 ‘모달리티 갭’의 기하학적 형태를 정밀히 규명하고, 이를 기반으로 훈련 없이 텍스트를 이미지 임베딩 공간에 정렬하는 ReAlign 기법을 제안한다. ReAlign을 사전 훈련 단계에 삽입한 ReVision 파이프라인은 대규모 비연계 텍스트만으로 시각 표현 분포를 학습하게 하여, 고가의 이미지‑텍스트 쌍 없이도 효율적인 MLLM 스케일링을 가능하게 한다. 실험 결과, ReVision 기반 사전 훈련 모델이 기존 대규모 이미지‑텍스트 기반 모델을 능가함을 입증한다.
상세 분석
논문은 먼저 멀티모달 대조 학습에서 관찰되는 ‘모달리티 갭’이 단순한 평균 편차가 아니라, 고차원 공간에서 구조화된 편향과 잔차로 구성된다는 점을 실증한다. 이를 위해 저자들은 고정된 기준 프레임(R₀) 내에서 임베딩 차이를 두 부분공간 U(주요 작업 서브스페이스)와 V(정규화된 직교 보조공간)로 분해한다. U는 공분산 행렬의 주요 고유벡터들로 정의되며, V는 그 보완 공간이다. 차이 벡터 Δ(t)=eₓ(t)−e_y(t)는 β(t) (U 내 평균 편향), γ(t) (V 내 평균 편향), δ(t) (U 내 잔차), ζ(t) (V 내 잔차) 네 요소로 정확히 표현된다.
실험적으로 γ(t)는 높은 코사인 안정성을 보이며 서서히 변동하는 ‘상수 직교 편향(Constant Orthogonal Bias, COB)’으로, 이는 서브스페이스 회전의 부수 효과임을 확인한다. 반면 β(t)는 ‘주요 모달리티 편향(Principal Modality Bias, PMB)’으로, 이를 제거하지 않으면 평균과 공분산이 혼합돼 잔차 분석이 왜곡된다.
잔차 측면에서 저자들은 δ(t)와 ζ(t)가 각각 매우 높은 조건수(κ>10³, κ>10¹)를 갖는 강한 이방성(anisotropy)을 보이며, 특히 U 내 잔차는 그래디언트 공분산과 높은 상관(ρ_align≈1)을 보여 ‘신호 잠금(signal locking)’ 현상을 나타낸다. 이는 모델이 학습 과정에서 특정 방향으로 정보가 집중된다는 의미이며, 단순한 등방성( isotropic) 가정이 크게 틀렸음을 증명한다.
이러한 기하학적 이해를 바탕으로 ReAlign은 세 단계(Anchor, Trace, Centroid)로 텍스트 임베딩을 이미지 임베딩 분포에 정렬한다. Anchor 단계는 평균(1차 통계)을 맞추고, Trace 단계는 전체 분산(스케일)을 맞추며, Centroid 단계는 구면 투영으로 인한 기하학적 드리프트를 보정한다. 모든 변환은 선형 매핑과 정규화만을 사용해 추가 학습 없이 적용 가능하다.
ReVision은 ReAlign을 사전 훈련에 삽입해, 대규모 비연계 텍스트를 ‘가짜 이미지 임베딩’으로 변환하고, 이를 기반으로 어댑터를 학습한다. 이후 실제 이미지와 함께 진행되는 시각 지시 튜닝 단계에서 미세한 시각 정보를 보강한다. 결과적으로, 이미지‑텍스트 쌍을 대량으로 수집·정제하는 비용을 크게 절감하면서도, 대규모 MLLM의 성능을 유지하거나 향상시킬 수 있다.
이 논문의 주요 기여는 (1) 모달리티 갭을 고정 프레임 내에서 편향·잔차로 정량화한 이론적 프레임워크, (2) 통계적 정렬만으로 훈련 비용을 없앤 ReAlign, (3) ReAlign을 활용한 비용 효율적인 MLLM 스케일링 파이프라인인 ReVision, (4) 대규모 비연계 데이터만으로도 기존 이미지‑텍스트 기반 사전 훈련을 능가한다는 실증적 증거이다.
댓글 및 학술 토론
Loading comments...
의견 남기기