시각‑언어 모델의 공간 편향 탐지와 완화
초록
본 논문은 대형 시각‑언어 모델(LVLM)의 공간 편향을 체계적으로 조사하고, 시각 인코더가 아닌 언어 모델의 인과 메커니즘에서 발생함을 밝힌 뒤, 전역 시각 컨텍스트를 동적으로 주입하는 경량 기법 AGCI를 제안한다. 실험을 통해 AGCI가 공간 변동에 대한 견고성을 크게 향상시키고, 다양한 다운스트림 과제와 환각 억제 벤치마크에서도 성능을 유지함을 입증한다.
상세 분석
본 연구는 LVLM이 동일한 시각 정보를 이미지 내 서로 다른 위치에 배치했을 때 출력이 크게 달라지는 현상을 ‘공간 편향’이라고 정의하고, 이를 정량화하기 위한 대규모 프로빙 데이터셋을 구축하였다. 10 000개의 이미지‑캡션 쌍을 3×3 격자 형태로 재구성하고, 핵심 이미지가 9개의 위치 각각에 놓인 90 000개의 샘플에 대해 “해당 이미지가 캡션과 일치하는가?”라는 이진 질문을 제시한다. 실험 결과, Qwen2.5‑VL, Qwen3‑VL, Gemma3n, LLaVA‑v1.6, InternVL3 등 최신 모델 모두 위치에 따라 정확도가 5 %~15 % 이상 변동하는 것으로 나타났다. 특히 LLaVA‑v1.6은 변동 폭이 가장 커서, 공간 편향이 모델 아키텍처에 따라 심각하게 달라질 수 있음을 시사한다.
편향의 원인 분석을 위해 저자는 시각‑언어 파이프라인을 ‘지각 단계’와 ‘의미 이해 단계’로 분리하였다. 지각 단계에서는 eraser‑search 방식을 이용해 이미지의 각 영역을 마스킹하고 로짓 변화량을 측정했으며, 핵심 이미지가 어느 위치에 있든 동일한 중요도 히트맵이 생성돼 시각 인코더가 위치에 무관하게 정보를 추출함을 확인했다. 의미 이해 단계에서는 동일 이미지‑캡션 쌍에 대해 비전 인코더 출력과 텍스트 임베딩 간 코사인 유사도를 측정했는데, 위치 변화에도 유사도가 거의 일정했다. 따라서 시각 인코더 자체는 공간 편향을 일으키지 않으며, 문제는 LLM이 이미지 토큰을 처리하는 과정에 있다.
저자는 LLM이 사용하는 인과적(causal) 어텐션이 비전 인코더의 양방향(self‑attention)과 구조적으로 불일치함을 지적한다. 비전 인코더는 모든 이미지 토큰이 전역적으로 교환된 정보를 공유하지만, LLM은 토큰 순서에 따라 앞 토큰이 뒤 토큰을 참조하지 못한다. 이로 인해 이미지 토큰이 LLM에 입력될 때, 초기 토큰은 전체 이미지 컨텍스트를 충분히 활용하지 못해 위치 의존적인 응답을 생성한다는 것이 핵심 가설이다.
이를 해결하기 위해 제안된 Adaptive Global Context Injection(AGCI)은 각 이미지 토큰에 전역 시각 컨텍스트 벡터를 동적으로 가중합하여 주입한다. 구체적으로, 비전 인코더 출력 전체를 하나의 글로벌 토큰으로 요약하고, 각 이미지 토큰과의 의미적 유사도에 기반해 가중치를 계산한다. 그런 다음, 가중치가 낮은 토큰에만 글로벌 컨텍스트를 보강함으로써 정보 손실을 최소화하고, 기존 아키텍처를 그대로 유지한다.
AGCI 적용 후 동일 프로빙 테스트에서 위치에 따른 정확도 변동이 평균 70 % 이상 감소했으며, VQA, OCR, 환각 억제 등 6개 베치마크에서도 기존 성능을 유지하거나 소폭 향상되었다. 특히, 대형 모델(Qwen2.5‑VL‑72B)에서는 공간 편향이 거의 사라졌음에도 불구하고 전반적인 정확도는 유지되었다. 시각‑언어 모델의 전역 컨텍스트 접근성을 복원함으로써, 모델이 이미지 전체를 균등하게 고려하도록 유도한 점이 혁신적이다.
본 논문의 주요 공헌은 (1) 공간 편향을 정량화한 대규모 프로빙 데이터셋 제공, (2) 편향 원인을 시각 인코더가 아닌 LLM의 인과 어텐션 메커니즘에 귀속시킨 분석, (3) 경량화된 AGCI 기법을 통해 구조적 변경 없이 편향을 완화하고, 다양한 실제 과제에서도 일반화 가능함을 입증한 점이다. 이러한 접근은 향후 LVLM 설계 시 전역 컨텍스트 흐름을 어떻게 보장할 것인가에 대한 중요한 설계 지표를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기