모달리티 중재를 이끄는 ‘인스트럭션 앵커’ 메커니즘
초록
이 논문은 멀티모달 대형 언어 모델이 사용자 지시를 따라 어느 모달리티를 사용할지 결정하는 과정을 분석한다. 인스트럭션 토큰이 구조적 앵커 역할을 하며, 얕은 어텐션 층은 모달리티 정보를 버퍼에 라우팅하고, 깊은 어텐션 층이 의도에 따라 경쟁을 해결한다. MLP 층은 기존 의미를 고수하는 ‘관성’ 역할을 한다. 전체 어텐션 헤드 중 약 5 %만을 조작해도 모달리티 따름 비율을 ±60 % 변화시킬 수 있음을 실험적으로 입증한다.
상세 분석
본 연구는 디코더‑전용 트랜스포머 기반 멀티모달 LLM을 대상으로, ‘모달리티 팔로잉(modality following)’이라는 새로운 행동을 정보 흐름 관점에서 해부한다. 핵심 가설은 인스트럭션 토큰이 구조적 앵커(Instruction Anchor) 로 작동해 시각·텍스트 등 다양한 모달리티의 신호를 한곳에 모은 뒤, 이후 단계에서 최종 결정을 내린다는 것이다. 이를 검증하기 위해 저자들은 (1) Causal Attention Knockout 기법으로 특정 토큰 간 어텐션 경로를 차단하고, (2) Normalized Signed Structural Divergence (INSSD) 라는 새로운 메트릭을 도입해 차단이 모달리티 선택에 미치는 영향을 정량화한다. 실험 결과, 시각 토큰 → 생성 토큰 직접 경로를 차단해도 성능 저하가 미미했으며, 대신 시각/텍스트 → 인스트럭션 토큰 경로를 차단했을 때 INSSD가 크게 상승해 모달리티 팔로잉이 크게 감소한다. 이는 모달리티 신호가 인스트럭션 앵커에 먼저 집결된 뒤, 여기서 경쟁이 해결된다는 증거이다.
층별 분석에서는 얕은 어텐션 층이 ‘잠재 버퍼(Latent Buffer)’ 역할을 수행해 모달리티 정보를 단순히 전달만 하고, 깊은 어텐션 층에서 ‘결정적 중재(Definitive Arbitration)’ 가 일어나 인스트럭션 의도에 따라 어느 모달리티를 선택할지 확정한다. 반면 MLP 서브레이어는 ‘의미 관성(Semantic Inertia)’ 을 보이며, 기존 사전 학습된 의미를 유지하려는 경향이 강해 어텐션이 만든 결정에 저항한다.
특히, 전체 헤드 중 **극히 소수(≈5 %)**만이 ‘중재 헤드(arbitration heads)’로 식별되었으며, 이들을 차단하면 모달리티 팔로잉 비율이 60 % 급감하고, 반대로 증폭하면 동일 비율만큼 회복한다. 이는 모델 내부에 희소하고 결정적인 정보 흐름 경로가 존재함을 강력히 시사한다.
이러한 발견은 (1) 멀티모달 LLM의 투명성 확보, (2) 안전·신뢰성 보장을 위한 인스트럭션 기반 제어 메커니즘 설계, (3) 어텐션 헤드 수준에서의 정밀한 개입 가능성을 제공한다는 점에서 학술적·실용적 의의를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기