시각 언어 모델 어텐션 헤드 기능 탐구 추론 모듈 증거
읽는 시간: 2 분
...
📝 원문 정보
- Title: Investigating The Functional Roles of Attention Heads in Vision Language Models: Evidence for Reasoning Modules
- ArXiv ID: 2512.10300
- 발행일: 2025-12-11
- 저자: Yanbei Jiang, Xueqi Ma, Shu Liu, Sarah Monazam Erfani, Tongliang Liu, James Bailey, Jey Han Lau, Krista A. Ehinger
📝 초록 (Abstract)
멀티모달 벤치마크에서 뛰어난 성능을 보이지만, 시각‑언어 모델(VLM)은 여전히 내부 작동이 불투명하다. 본 논문에서는 VLM의 내부 메커니즘을 체계적으로 분석하기 위한 새로운 해석 프레임워크를 제안하고, 특히 멀티모달 추론 과정에서 어텐션 헤드가 수행하는 기능적 역할에 초점을 맞춘다. 이를 위해 복잡한 멀티모달 질문을 인간의 연쇄 사고 과정을 모방한 단계별 하위 질문으로 분해하고, 각 하위 질문을 고수준 시각 수용, 추론 등 특정 인지·수용 기능과 연결한 CogVision 데이터셋을 구축하였다. 프로빙 기반 방법론을 활용해 이러한 기능에 특화된 어텐션 헤드를 식별하고 이를 ‘기능적 헤드’로 정의한다. 다양한 VLM 계열에 걸친 분석 결과, 기능적 헤드는 전반적으로 희소하게 존재하며, 기능별 개수와 분포는 모델마다 차이를 보이지만 일관된 계층적 조직과 상호작용을 매개한다는 사실이 밝혀졌다. 또한, 기능적 헤드를 제거하면 성능이 크게 저하되고, 강조하면 정확도가 향상되는 등, 이들의 멀티모달 추론에서의 핵심적 역할을 입증하였다. 이러한 발견은 VLM의 인지적 구조에 대한 새로운 통찰을 제공하며, 인간과 보다 정렬된 지각·추론 능력을 갖춘 모델 설계 방향을 제시한다. 코드와 데이터는 https://github.com/YanbeiJiang/CogVision 에서 공개한다.💡 논문 핵심 해설 (Deep Analysis)
