LVLM 언어 선입견 분석을 위한 시각 통합 포인트와 총 시각 통합 지표
초록
본 논문은 대형 비전‑언어 모델(LVLM)의 언어 선입견(LP)을 내부 표현 흐름인 체인‑오브‑임베딩을 통해 정량화한다. 모델이 시각 정보를 실제로 활용하기 시작하는 층을 ‘시각 통합 포인트(VIP)’라 정의하고, VIP 이후의 임베딩 차이를 누적한 ‘총 시각 통합(TVI)’ 지표를 제안한다. 10개 모델·6개 벤치마크(총 60조합) 실험을 통해 VIP가 보편적으로 존재함을 확인하고, TVI가 LP 강도를 신뢰성 있게 예측함을 보인다.
상세 분석
이 연구는 LVLM이 텍스트 사전학습에서 축적된 언어 선입견에 과도하게 의존하면서 시각 정보를 충분히 활용하지 못하는 문제를 해결하고자 한다. 기존 연구들은 입력‑출력 수준에서 모델의 LP를 추정했지만, 내부 표현의 변화를 관찰하지 못했다는 한계를 지적한다. 논문은 ‘체인‑오브‑임베딩(chain‑of‑embedding)’이라는 개념을 도입해, 각 디코더 층에서 시각‑텍스트 입력( Zₗ^vis )과 텍스트만 입력( Zₗ^blind )으로 얻은 임베딩을 비교한다. 층별 코사인 거리 d(Zₗ^vis, Zₗ^blind)를 기대값 Dₗ으로 정의하고, 이를 데이터셋 별로 추정한다.
핵심 가설은 특정 층 l*에서 Dₗ이 급격히 증가하는 ‘시각 통합 포인트(VIP)’가 존재한다는 것이다. VIP 이전에는 시각 정보가 모델 내부에 존재하더라도 실제 추론에 활용되지 않으며, Dₗ 차이가 거의 0에 가깝다. 반면 VIP 이후에는 시각‑텍스트 간 상호작용이 강화되어 Dₗ이 크게 늘어나고, 이는 모델이 시각 정보를 기반으로 답을 생성한다는 신호이다. 논문은 이 현상이 ‘시각‑의존적’ 데이터(P_VT)와 ‘시각‑독립적’ 데이터(P_T) 사이에서 뚜렷하게 구분된다고 실증한다.
VIP를 발견한 뒤, 저자는 ‘총 시각 통합(Total Visual Integration, TVI)’을 정의한다. TVI는 VIP 이후 모든 층에서의 Dₗ 차이를 누적한 값으로, 시각 정보가 최종 출력에 미치는 총 영향을 정량화한다. TVI가 높을수록 모델이 시각 정보를 충분히 활용하고, 반대로 낮을수록 언어 선입견에 의존한다는 역관계가 성립한다.
실험에서는 Qwen2.5‑VL‑7B, Gemma‑3‑4B 등 10개의 최신 LVLM을 대상으로 MME, MMBench, VLind‑Bench 등 6개의 멀티모달 벤치마크를 사용했다. 모든 모델에서 VIP가 일관되게 존재했으며, 모델마다 VIP 위치가 약간 다르지만 데이터셋에 크게 좌우되지 않았다. 또한 TVI와 기존 LP 지표(예: 시각‑주의 가중치, 출력 차이) 간의 상관관계를 분석한 결과, TVI가 가장 높은 상관계수를 보이며 LP를 예측하는 데 가장 효과적이었다.
이론적 분석에서는 TVI를 정보‑이론적 관점에서 해석하고, TVI의 상한·하한을 모델의 표현 용량과 시각‑텍스트 정합성에 대한 함수로 제시한다. 이를 통해 TVI가 단순한 거리 측정이 아니라, 모델이 시각 정보를 얼마나 효율적으로 압축·전달하는지를 나타내는 정량적 지표임을 증명한다.
전체적으로 이 논문은 LVLM 내부의 층별 표현 변화를 이용해 시각‑언어 통합 과정을 명시적으로 파악하고, 언어 선입견을 정량화할 수 있는 새로운 프레임워크를 제공한다. 이는 모델 디버깅, 설계 개선, 그리고 시각‑언어 멀티모달 학습에서 LP를 억제하는 전략 수립에 실용적인 도구가 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기