LVLM 객체 환각을 넘어서는 자체 검증 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 비전‑언어 모델(LVLM)이 이미지 캡션 생성 시 언어 선행지식에 과도하게 의존해 발생하는 객체 환각 문제를 분석한다. 생성 길이가 늘어날수록 시각 정보의 영향이 감소하고 환각 확률이 급증한다는 JSD 실험 결과를 바탕으로, 언어‑선행‑프리 검증(LPFV)과 두 단계의 자체 검증(Self‑Validation) 프레임워크를 제안한다. 후보 캡션을 다수 생성한 뒤 객체 존재 신뢰도를 평가하고, 최고 신뢰도 캡션을 선택하거나 저신뢰 객체를 필터링 후 재집합하는 방식으로 기존 SOTA 방법보다 65% 이상 CHAIRI 개선을 달성한다.

상세 분석

본 연구는 LVLM이 이미지 캡션을 생성할 때 “언어 선행(prior) 의존”이라는 근본적인 결함을 정량적으로 규명한다. 저자들은 LLaVA‑v1.5‑7B 모델을 사용해 MS‑COCO 검증 이미지에서 자동 회귀 방식으로 토큰을 생성하고, 시각 입력 v와 텍스트 컨텍스트

LVLM 객체 환각을 넘어서는 자체 검증 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기