LVLM 객체 환각을 넘어서는 자체 검증 프레임워크

LVLM 객체 환각을 넘어서는 자체 검증 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 비전‑언어 모델(LVLM)이 이미지 캡션 생성 시 언어 선행지식에 과도하게 의존해 발생하는 객체 환각 문제를 분석한다. 생성 길이가 늘어날수록 시각 정보의 영향이 감소하고 환각 확률이 급증한다는 JSD 실험 결과를 바탕으로, 언어‑선행‑프리 검증(LPFV)과 두 단계의 자체 검증(Self‑Validation) 프레임워크를 제안한다. 후보 캡션을 다수 생성한 뒤 객체 존재 신뢰도를 평가하고, 최고 신뢰도 캡션을 선택하거나 저신뢰 객체를 필터링 후 재집합하는 방식으로 기존 SOTA 방법보다 65% 이상 CHAIRI 개선을 달성한다.

상세 분석

본 연구는 LVLM이 이미지 캡션을 생성할 때 “언어 선행(prior) 의존”이라는 근본적인 결함을 정량적으로 규명한다. 저자들은 LLaVA‑v1.5‑7B 모델을 사용해 MS‑COCO 검증 이미지에서 자동 회귀 방식으로 토큰을 생성하고, 시각 입력 v와 텍스트 컨텍스트


댓글 및 학술 토론

Loading comments...

의견 남기기