멀티모달 트랜스포머의 특징 수준 상호작용 설명
초록
본 논문은 고정된 사전학습 인코더 위에 특징 수준의 Mixture‑of‑Experts(MoE) 레이어를 추가해, 각 모달리티의 토큰·패치 수준에서 고유, 시너지, 중복 정보를 명시적으로 분리한다. 전문가별 중요도와 Monte Carlo 기반 Shapley Interaction Index(SII)·Redundancy‑Gap 점수를 활용해 교차‑모달 특성 쌍을 정량화하고, 상위 쌍을 마스킹했을 때 성능 저하가 크게 나타나는 것을 실험으로 입증한다.
상세 분석
FL‑I2MoE는 기존 I2MoE 구조를 그대로 유지하면서, 풀링 단계 대신 텍스트 토큰과 이미지 패치를 그대로 보존하는 시퀀스 인코더를 사용한다. 이렇게 하면 각 토큰·패치가 어떤 전문가(uniqueness, synergy, redundancy)에 할당되는지를 직접 관찰할 수 있다. 전문가별 중요도는 Grad × AttnRoll 기법으로 추정하며, 이는 마스킹 실험에서 가장 높은 신뢰도를 보였다.
Monte Carlo 방식으로 SII를 추정할 때는, 각 전문가가 선택한 상위 ρ% 특징을 후보 집합으로 만든 뒤, 교차‑모달 쌍(u, v)을 순차적으로 마스킹하고 그에 따른 로그잇 변화량을 평균한다. 시너지 점수는 SII 값 자체이며, 중복 점수는 “Redundancy‑Gap”이라는 새로운 지표로 정의한다. Redundancy‑Gap은 개별 특징을 마스킹했을 때의 성능 감소와 쌍을 동시에 마스킹했을 때의 감소 차이를 이용해, 두 특징이 서로 대체 가능한 정도를 정량화한다.
실험은 MM‑IMDb, ENRICO, MMHS150K 세 데이터셋에서 진행되었으며, 동일한 사전학습 인코더와 동일한 파라미터 규모의 dense Transformer와 비교했다. FL‑I2MoE는 전체 정확도에서 소폭 향상을 보였을 뿐 아니라, 전문가별 중요도 맵이 더 집중되고 명확하게 구분되는 특징을 보여준다. 특히, SII 상위 5% 쌍을 마스킹하면 정확도가 평균 8% 이상 급락하는 반면, 무작위 마스킹은 2% 이하에 머문다. 이는 모델이 실제로 시너지·중복 쌍에 의존하고 있음을 증명한다.
또한, 전문가별 가중치(w_i)는 입력마다 동적으로 변하며, 데이터셋 수준에서는 특정 전문가가 특정 도메인(예: 텍스트 중심 영화 설명)에서 더 높은 평균 가중치를 갖는 경향을 보인다. 이는 모델이 학습 과정에서 역할을 스스로 정립한다는 I2MoE 논문의 주장과 일치한다.
한계점으로는 Monte Carlo 샘플 수가 늘어날수록 계산 비용이 급격히 증가한다는 점이며, 현재는 500~1000 샘플을 사용해 근사하였다. 또한, 현재 구현은 두 모달리티에만 최적화돼 있어, 3개 이상 모달리티에 대한 확장은 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기