비전‑언어 모델 불확실성의 모달리티별 진단과 벤치마크

비전‑언어 모델 불확실성의 모달리티별 진단과 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

VLM‑UQBench는 이미지, 텍스트, 그리고 두 모달리티 간의 불확실성을 구분해 평가할 수 있는 600개 샘플 기반 벤치마크이다. 8가지 시각·5가지 텍스트·3가지 교차‑모달 교란을 적용하고, 두 가지 메트릭(URR, HCC)으로 교란에 대한 불확실성 점수의 민감도와 환각과의 연관성을 측정한다. 실험 결과 기존 불확실성 추정 방법은 모달리티별 특화가 강하고 VLM에 크게 의존하지만, 환각 위험을 일관되게 예측하지 못한다는 한계를 드러낸다.

상세 분석

본 논문은 비전‑언어 모델(VLM)에서 발생하는 불확실성을 “이미지‑불확실성”, “텍스트‑불확실성”, “교차‑모달 불확실성”으로 세분화하고, 이를 정량적으로 평가할 수 있는 벤치마크 VLM‑UQBench를 제안한다. 핵심 구성요소는 다음과 같다.

  1. 데이터 구성: VizWiz 데이터셋에서 실제 사용 상황을 반영한 600개의 샘플을 추출하고, 인간 주석·규칙 기반 필터·전문가 검수를 거쳐 ‘Clean’, ‘Image‑Uncertainty’, ‘Text‑Uncertainty’, ‘Cross‑Modality’ 네 가지 서브셋으로 나눈다. 추가로 VQ‑FocusAmbiguity에서 텍스트‑이미지 정합성에 대한 grounding 정보를 활용한 교차‑모달 샘플과, CLEVR 장면 그래프를 이용해 속성·존재·계산·관계 환각을 제어한 합성 샘플을 포함한다.

  2. 교란 파이프라인: 시각 교란(blur, brightness, dark, cutout, noise, pixelate, shuffle, etc.) 8종, 텍스트 교란(typo, shuffle, drop‑words, subjectivity, invalid rewrite) 5종, 교차‑모달 교란(ambiguous reference, insufficient visual evidence 등) 3종을 설계하고, 각 교란의 강도를 작은 검증 셋에서 시각적으로 조정한다. 이를 통해 원본 샘플과 교란 샘플 간의 ‘대조 쌍’을 자동 생성해, 인간 라벨 없이도 샘플 수준의 불확실성 변화를 측정한다.

  3. 평가 메트릭:

    • Uncertainty Reflection Rate (URR): 교란 전후 불확실성 점수가 상승한 비율을 측정해, 특정 모달리티 교란에 대한 감도(sensitivity)를 정량화한다.
    • Hallucination Consistency Coefficient (HCC): 교란이 환각을 유발했는지 여부와 불확실성 점수 변화 간의 상관관계를 코릴레이션 형태로 나타낸다.
  4. 실험 설정: 4가지 최신 VLM(예: OFA, BLIP‑2, LLaVA, InstructBLIP)과 3개의 VQA 데이터셋(VizWiz, VQ‑FocusAmbiguity, CLEVR‑Hallucination)에서 총 9가지 불확실성 추정 방법(white‑box: token entropy, max probability, PMI 등; black‑box: lexical similarity, diversity metrics 등)을 적용한다.

  5. 주요 발견

    • 모달리티 특화: 이미지‑불확실성에 강한 메트릭은 텍스트 교란에 거의 반응하지 않으며, 반대로 텍스트‑전용 메트릭은 시각 교란에 둔감하다. 이는 기존 UQ 방법이 단일 스칼라 점수에 의존해 모달리티 구분 능력이 부족함을 시사한다.
    • 모델 의존성: 동일 메트릭이라도 VLM에 따라 민감도가 크게 달라진다. 특히 시각 교란에 대한 반응은 OFA와 BLIP‑2 사이에 현저히 차이 나며, 이는 이미지 인코더와 멀티모달 어텐션 설계가 불확실성 추정에 미치는 영향을 강조한다.
    • 환각과의 연계 약함: URR과 HCC 모두 높은 값을 보이는 경우가 드물며, 불확실성 점수가 높아도 실제 환각이 발생하지 않거나, 반대로 환각이 발생했음에도 점수가 낮은 경우가 빈번하다. 이는 현재 UQ 점수가 위험 신호로 활용되기엔 신뢰성이 부족함을 의미한다.
    • 그룹‑레벨 vs. 샘플‑레벨: VQ‑FocusAmbiguity와 같은 명시적 모달리티 불일치 상황에서는 CoT(Chain‑of‑Thought) 기반 추론과 UQ 점수가 비슷한 수준의 검출률을 보였지만, 교란 파이프라인이 만든 미세한 불확실성(예: 약간의 블러, 경미한 오탈자)에서는 대부분의 UQ 방법이 거의 구분하지 못한다.
  6. 의의와 한계: VLM‑UQBench는 모달리티별 불확실성을 정밀하게 라벨링하고, 교란 기반 대조 실험을 자동화함으로써 기존 “불확실성 = 스칼라” 패러다임을 넘어선 평가 인프라를 제공한다. 다만 현재 제시된 9가지 메트릭이 모두 낮은 환각 감지 성능을 보인 점은, 새로운 모달리티‑인식 불확실성 모델(예: 이미지‑텍스트 어텐션 분산, 시각‑텍스트 일관성 점수 등)의 필요성을 강조한다. 향후 연구는 (1) 불확실성 점수와 행동 정책(예: 질문 재작성, 이미지 재촬영) 사이의 직접적인 연결 고리 설계, (2) 멀티모달 사전학습 단계에서 불확실성 정보를 명시적으로 학습시키는 방법, (3) 인간‑인증된 위험도 라벨을 활용한 캘리브레이션 기법 개발 등을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기