시각 인식 강화와 로짓 보강으로 LVLM 환각을 크게 줄이다
초록
본 논문은 대형 시각‑언어 모델(LVLM)에서 시각 토큰에 대한 주의가 부족해 발생하는 환각 현상을 완화하기 위해, 훈련 없이 적용 가능한 두 가지 모듈을 제안한다. 첫 번째는 시각‑텍스트 유사도가 높은 토큰에 주의를 재배치하는 ‘Attention Refocusing’, 두 번째는 시각 토큰의 기여도를 로그스코어에 반영하는 ‘Visual Beam Search’이다. 실험 결과, LLaVA‑v1.5와 Qwen2.5‑VL 등 주요 LVLM에서 CHAIR와 POPE 지표가 크게 개선되었으며, 내용 정확도와 풍부함은 유지된다.
상세 분석
본 연구는 LVLM이 이미지 설명이나 객체 인식과 같은 시각 이해 과제에서 종종 존재하지 않는 객체를 언급하거나 잘못된 세부 정보를 생성하는 ‘환각’ 문제를 근본 원인인 시각 토큰에 대한 낮은 어텐션으로 규정한다. 기존 연구들은 어텐션을 전반적으로 증폭하거나 대비 디코딩을 도입했지만, 이는 모든 시각 토큰을 동일하게 강화해 작업과 무관한 영역까지 과도하게 주목하게 만든다. 저자들은 “작업‑관련 토큰은 시각‑텍스트 유사도가 높다”는 관찰에 기반해, 교차 어텐션 행렬에서 시각‑텍스트 상관 관계를 추출해 재가중치 행렬을 만든 뒤, 선택된 레이어의 어텐션에 가감함으로써 ‘시각‑텍스트 의미적 정렬이 높은 토큰’에만 집중하도록 설계하였다. 이는 기존 SASR(Self‑Augmentation via Self‑Reweighting) 개념을 LVLM에 맞게 변형한 것으로, 시각‑텍스트 서브매트릭스(v→i, i→v)를 별도 저장하고 추론 시 마지막 토큰의 어텐션에만 적용한다. 재가중치와 원본 어텐션을 α 비율로 혼합해 시각‑텍스트 연관성이 강한 토큰에 어텐션을 집중시키면서, 불필요한 시각 영역에 대한 주의는 억제한다.
두 번째 모듈인 Visual Beam Search는 디코딩 단계에서 시각 토큰의 어텐션 값을 로그스코어에 직접 가중합한다. 각 후보 빔에 대해 ‘Visual Interaction Degree(VID)’를 정의하고, 이를 β·γ 비율로 로그스코어에 더함으로써 시각 정보와의 상호작용이 큰 후보가 최종 선택되도록 한다. 이 방식은 기존 빔 서치가 텍스트 확률에만 의존하는 한계를 보완하고, 시각‑텍스트 일관성을 정량적으로 반영한다.
실험에서는 LLaVA‑v1.5‑7B와 Qwen2.5‑VL‑3B 두 모델에 동일한 하이퍼파라미터(α, β, γ) 설정을 적용했으며, COCO‑2014 검증 이미지 500장을 사용해 CHAIR‑I/CHAIR‑S와 POPE(객체 존재 여부 질문) 지표를 측정했다. VAALE는 기존 베이스라인(OPERA, VCD, PAI) 대비 CHAIR‑S에서 최대 15.5%, CHAIR‑I에서 17.8% 감소를 기록했으며, Qwen2.5‑VL에서는 39%·43% 수준의 대폭적인 개선을 보였다. 동시에 F1 점수와 POPE 정확도는 크게 떨어지지 않아, 내용 풍부함과 정확성을 유지한다는 장점을 확인했다.
또한, α와 β에 대한 민감도 분석을 통해 어텐션 재가중치 비율이 0.30.5(그리디) 혹은 0.10.2(빔 서치) 구간에서 최적 성능을 보이며, β는 0.3~0.6 사이가 가장 효과적임을 밝혔다. 두 모듈을 결합했을 때는 개별 적용보다 약간 더 높은 F1과 낮은 CHAIR 점수를 얻어, 시각‑텍스트 정렬 강화와 디코딩 단계 시각 정보 활용이 상호 보완적임을 입증한다.
전체적으로 본 논문은 (1) 훈련 없이도 적용 가능한 어텐션 재배치 기법, (2) 시각 정보 기반 로그스코어 보강이라는 두 축을 통해 LVLM의 환각을 실질적으로 감소시키면서도 생성 품질을 유지한다는 점에서 의미가 크다. 특히, 교차 어텐션 서브매트릭스를 직접 활용한다는 접근은 모델 내부의 시각‑텍스트 연관성을 정량화하고, 이를 외부 제어 신호로 전환하는 새로운 패러다임을 제시한다. 향후 연구에서는 자동 레이어 선택, 동적 α/β 튜닝, 그리고 다른 멀티모달 과제(예: 비디오 캡션, VQA)로의 확장 가능성을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기