시각적 주의 헤드 기반 정밀 VQA를 위한 자동 이미지 크롭

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 멀티모달 대형 언어 모델(MLLM)의 세밀한 시각 질문응답(VQA) 성능을 향상시키기 위해, OCR 기반 진단으로 선별된 주의 헤드만을 활용해 이미지의 핵심 영역을 자동으로 크롭하는 훈련‑프리 방법인 HAVC(Head‑Aware Visual Cropping)를 제안한다. 헤드 선택 후 공간 엔트로피와 그래디언트 민감도를 결합해 가중합한 가이드 맵을 생성하고, 이를 기반으로 서브이미지를 제공함으로써 기존 방법 대비 정확도와 시각적 그라운딩을 크게 개선한다.

상세 분석

HAVC는 두 단계로 구성된 파이프라인을 통해 기존 MLLM이 저해상도 입력과 모든 주의 헤드의 무차별적 집계로 인해 발생하는 잡음을 최소화한다. 첫 번째 단계에서는 OCR 기반 진단 과제를 이용해 각 헤드의 시각적 그라운딩 능력을 정량화한다. 구체적으로, 모델이 텍스트를 올바르게 예측할 때 해당 토큰에 대한 주의 피크가 실제 텍스트 영역과 일치하는지를 확인하고, 이를 정규화된 프로젝션 스코어로 변환한다. 이 스코어가 0.5 이상인 헤드만을 ‘전문 시각 헤드’로 선정함으로써, 텍스트 영역에 대한 정밀한 주의가 가능한 헤드만을 남긴다. 두 번째 단계에서는 추론 시점에 남은 헤드들을 두 가지 보조 신호로 재평가한다. 첫 번째는 공간 엔트로피로, 주의 맵을 이진화한 뒤 연결 요소와 중심점 간 거리를 측정해 주의가 얼마나 집중되어 있는지를 평가한다. 엔트로피가 낮을수록 시각적 집중도가 높으며, 사전에 설정한 임계값(0.3) 이하인 헤드만을 유지한다. 두 번째는 그래디언트 민감도이다. 모델이 현재 토큰을 예측할 때 해당 헤드의 시각적 주의가 증가하면 예측 확률이 얼마나 상승하는지를 미분으로 계산한다. 양의 그래디언트만을 취하고, 원래 주의와 내적해 그래디언트 스코어를 산출한다. 이후 두 스코어를 min‑max 정규화하고 가중합(α=0.4)하여 최종 헤드 점수를 얻는다. 상위 K개(예: K=8) 헤드를 선택하고, 온도 파라미터 τ=0.1을 적용한 소프트맥스로 가중치를 부여해 각 헤드의 주의 맵을 가중합한다. 이렇게 만든 Visual Cropping Guidance Map은 이미지 내에서 질문과 가장 관련된 영역을 강조하고, 해당 영역을 바운딩 박스로 추출해 서브이미지를 생성한다. 이 서브이미지는 원본 이미지와 함께 MLLM에 입력되어, 모델이 고해상도 세부 정보를 직접 처리하지 않으면서도 핵심 증거에 집중하도록 만든다. 실험 결과, LLaVA‑1.5와 InstructBLIP 두 백본 모두에서 OKVQA, POPE, TextVQA, V* 등 6개 벤치마크에 걸쳐 평균 1~3%p 이상의 정확도 향상을 기록했으며, 특히 TextVQA와 V*에서 기존 V iCrop 대비 큰 격차를 보였다. Ablation 연구에서는 전체 헤드 사용 시 성능이 거의 개선되지 않지만, OCR‑필터링만으로도 큰 이득이 발생하고, 엔트로피와 그래디언트 두 신호를 결합했을 때 최상의 결과가 나온다는 점을 확인했다. 따라서 HAVC는 ‘전문 헤드 선별 → 두 신호 기반 재평가 → 가이드 맵 기반 크롭’이라는 명확한 흐름을 통해, 기존의 잡음‑다중 헤드 집계 문제를 효과적으로 해결한다는 점이 가장 큰 공헌이라 할 수 있다.

시각적 주의 헤드 기반 정밀 VQA를 위한 자동 이미지 크롭

초록

상세 분석

댓글 및 학술 토론

의견 남기기