시각언어 모델 환각은 살리언시 감소에서 시작된다

시각언어 모델 환각은 살리언시 감소에서 시작된다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 시각‑언어 모델(LVLM)에서 토큰 수준의 그래디언트‑주의 결합 지표인 LVLMs‑Saliency를 제안한다. 낮은 살리언시가 이전 출력 토큰과의 연관성을 상실할 때 환각이 발생한다는 패턴을 발견하고, 이를 기반으로 토큰 선택을 제한하는 Saliency‑Guided Rejection Sampling(SGRS)과 최근 토큰에 대한 주의 가중치를 강화하는 Local Coherence Reinforcement(LocoRE)를 설계한다. 실험 결과 두 기법을 결합하면 다양한 LVLM에서 환각 비율을 크게 낮추면서도 생성 품질을 유지한다.

상세 분석

LVLMs‑Saliency는 기존의 순방향 주의 맵이 제공하는 정보에 입력‑출력 그래디언트를 곱해 토큰‑레벨의 시각적 정합성을 정량화한다. 수식적으로는 각 레이어·헤드의 주의 행렬 A(l,h)와 손실 L에 대한 그래디언트 ∇A(l,h)를 원소별 곱한 뒤 하삼각 마스크를 적용해 인과적 흐름을 보존한다. 정규화된 살리언시 행렬 (\bar S(l))는 이전 출력 토큰이 현재 토큰 예측에 미치는 기여도를 나타내며, 높은 값은 강한 컨텍스트 연결을, 낮은 값은 “맥락 소실”을 의미한다. 저자들은 Qwen2‑VL‑7B와 LLaVA‑1.5‑7B 모델에서 500개 샘플을 분석해, 정답 토큰은 최근 출력에 대해 점진적으로 감소하는 높은 살리언시를 보이는 반면, 환각 토큰은 전반적으로 살리언시가 급격히 낮아지는 패턴을 일관되게 관찰했다. 특히, 프롬프트 자체의 살리언시는 모델 정확도에 큰 영향을 주지 않으며, 문제는 출력 토큰 간의 연결 고리가 약해지는 데 있다.

이 통찰을 활용한 두 가지 추론 단계 기법은 다음과 같다. 첫째, SGRS는 현재 디코딩 단계에서 Top‑K 후보 토큰을 샘플링한 뒤 각 후보의 살리언시 점수를 계산한다. 후보의 점수가 최근 W개의 토큰 평균 살리언시에 비례하는 적응 임계값 τ(P)보다 낮으면 해당 후보를 폐기하고 재샘플링한다. 모든 후보가 폐기될 경우, 가장 높은 살리언시를 가진 토큰을 강제 선택한다. 이렇게 함으로써 “맥락 파괴” 토큰이 시퀀스에 진입하는 것을 사전에 차단한다.

둘째, LocoRE는 토큰이 확정된 뒤 다음 단계의 자기‑주의 행렬에 거리‑가중 이득 γ(P)j = 1 + β·I(P−j ≤ ws)를 곱해 최근 w s 토큰에 대한 주의 가중치를 인위적으로 강화한다. 이 연산은 그래디언트 계산이나 파라미터 수정 없이 순전파 단계에서만 적용되며, 모델이 긴 시퀀스에서도 최근 컨텍스트를 잊지 않도록 돕는다. 두 기법은 순차적으로 적용돼, SGRS가 “정합성 높은” 토큰을 선택하고, LocoRE가 선택된 토큰이 이후 단계에서도 지속적으로 영향을 미치게 만든다.

실험에서는 Qwen2‑VL‑7B, LLaVA‑v1.5‑7B/13B, Intern‑VL‑7/13B 등 다양한 아키텍처에 적용했으며, CHAIR·POPE와 같은 환각 전용 벤치마크뿐 아니라 VQA·MM‑VET·MME와 같은 일반 성능 벤치마크에서도 SGRS+LocoRE 조합이 기존 최첨단 방법보다 환각 비율을 평균 30% 이상 감소시키면서 BLEU·ROUGE·CIDEr 등 텍스트 품질 지표는 유지되거나 소폭 향상되는 결과를 보였다. 특히, SGRS만 적용해도 대부분의 환각을 억제하지만, LocoRE를 추가하면 긴 문맥에서의 누적 오류를 방지해 전체 흐름의 일관성을 크게 개선한다.

이 논문은 (1) 그래디언트‑주의 결합을 통한 토큰‑레벨 정합성 측정 방법, (2) 정합성이 낮은 토큰을 사전에 차단하는 동적 샘플링 전략, (3) 출력 토큰 간의 주의 연결을 강화하는 경량 모듈이라는 세 가지 핵심 기여를 제시한다. 또한, 살리언시가 낮아지는 순간이 환각 발생의 직접적인 원인이라는 인과적 증거를 제공함으로써, 향후 LVLM의 신뢰성 향상을 위한 해석 가능하고 효율적인 방향을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기