다이나믹 레이어 적응 시각 정밀 탐색 및 디코딩 강화
초록
본 논문은 고정된 시각 토큰 수 때문에 발생하는 세부 정보 손실과 언어 편향을 극복하고자, 질의 복잡도에 따라 시각적 근거가 가장 강하게 활성화되는 레이어를 자동으로 선택하는 방법을 제안한다. 질의‑조건 대조 주의(Contrastive Attention)를 이용해 레이어별 시각 활성도(VAQ)를 측정하고, 가장 높은 VAQ를 보이는 레이어에서 얻은 주의 맵으로 이미지 영역을 정밀하게 크롭한 뒤, 시각 근거에 기반한 토큰 활성도(VAT)를 활용해 디코딩을 보강한다. 훈련 없이 적용 가능한 LASER 프레임워크는 다양한 VQA 벤치마크에서 기존 방법 대비 정확도를 크게 향상시킨다.
상세 분석
이 연구는 LVLM(Large Vision‑Language Model)의 시각 토큰 병목 현상을 근본적으로 재조명한다. 기존 접근법은 고정된 “매직 레이어”에 의존해 이미지 크롭이나 토큰 프루닝을 수행했지만, 레이어별 특성이 질의 난이도에 따라 달라진다는 점을 간과했다. 저자들은 레이어‑와‑헤드 수준에서의 주의 가중치를 ‘질의 유무’ 두 조건으로 비교함으로써, 질의에 의해 실제로 활성화된 시각적 신호만을 추출하는 Contrastive Attention을 도입한다. 이 과정에서 얻어지는 VAQ(Visual Activation by Query) 점수는 각 레이어가 질의‑특정 시각 근거를 얼마나 강하게 반영하는지를 정량화한다.
핵심 아이디어는 “시각적 근거는 정적인 것이 아니라 동적인 과정”이라는 가정이다. 실험적으로 단순 객체 인식에서는 중간 레이어가, 복합적인 다단계 추론에서는 더 깊은 레이어가 근거를 재활성화한다는 것을 보여준다. 따라서 매 입력마다 VAQ가 최대인 레이어 ℓ*를 선택하고, 해당 레이어의 대조 주의 맵을 이용해 이미지 내 핵심 영역을 정밀하게 크롭한다. 이때 크롭은 기존의 전역적인 고정 크롭과 달리, 질의에 따라 동적으로 영역을 제한함으로써 시각 토큰 예산을 가장 효율적으로 사용한다.
디코딩 단계에서는 VAT(Visual Activation by Tokens)를 정의한다. VAT는 정답 후보 토큰이 크롭된 이미지의 시각 근거에 의해 실제로 활성화되는 정도를 측정한다. 긍정적 스트림(원본 이미지)과 부정적 스트림(시각 근거를 마스킹한 이미지)의 로짓을 대비함으로써, 시각 근거가 없는 토큰의 확률을 억제하고, 근거가 충분히 뒷받침되는 토큰을 강조한다. 이 과정은 추가 학습 없이도 모델의 출력 분포를 시각적으로 정당화된 방향으로 재조정한다.
LASER는 세 단계(레이어 선택 → VAQ‑가이드 크롭 → VAT‑가이드 디코딩)로 구성되며, 모든 연산이 추론 시점에 수행된다. 실험에서는 Qwen‑VL과 LLaVA를 기반으로 RefCOCO, POPE, TextVQA, A‑OKVQA 등 다양한 데이터셋에 적용했으며, 특히 복합 추론이 요구되는 A‑OKVQA에서 기존 방법 대비 4~6%p 상승을 기록했다. 또한, 시각 근거가 약한 질문에 대해서는 기존 모델이 언어 편향에 의해 답을 생성하는 경우가 많았으나, LASER는 시각 근거가 충분히 확보되지 않은 경우에도 부정적 스트림을 활용해 “답변 불가능”을 적절히 판단하는 능력을 보였다.
이 논문의 주요 공헌은 다음과 같다. 첫째, 질의‑조건 대조 주의를 통해 시각‑언어 모델 내부의 질의‑특정 시각 활성도를 정량화하는 VAQ를 제안했다. 둘째, VAQ를 기반으로 레이어를 동적으로 선택하고, 선택된 레이어의 주의 맵을 이용해 입력 이미지를 효율적으로 재구성하는 방법을 제시했다. 셋째, VAT를 활용해 시각 근거에 기반한 토큰 로짓을 보강·감쇠함으로써, 훈련‑프리 방식으로 디코딩 품질을 크게 향상시켰다. 마지막으로, 다양한 VQA 벤치마크에서 일관된 성능 향상을 입증함으로써, 고정 레이어에 의존하는 기존 시각‑언어 모델의 한계를 넘어서는 실용적인 프레임워크를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기