시각 근거 기반 자기 교정으로 LVLM 환각 방지

Kestrel은 외부 시각 그라운딩 에이전트와 증거 기반 자기 교정 메커니즘을 결합한 훈련‑무료 프레임워크로, 대형 비전‑언어 모델의 환각을 효과적으로 감소시킨다. 이미지‑질문 쌍을 검증 가능한 주장으로 분해하고, SAM3을 이용해 구조화된 시각·텍스트 증거를 수집한다. 이후 LVLM 판사로 증거를 검증하고, 고신뢰 증거가 확보될 때만 답변을 단계적으로 수정한다. POPE와 MME‑Hallucination 벤치마크에서 기존 최첨단 방법보다 평균…

저자: Jiawei Mao, Hardy Chen, Haoqin Tu

시각 근거 기반 자기 교정으로 LVLM 환각 방지
본 논문은 대형 비전‑언어 모델(LVLM)의 환각 문제를 해결하기 위해 ‘Kestrel’이라는 훈련‑무료 프레임워크를 제안한다. 기존 연구는 환각을 줄이기 위해 추가 학습이나 대규모 라벨링이 필요했지만, Kestrel은 테스트 시점에만 외부 도구와 자체 검증 메커니즘을 활용한다는 점에서 차별화된다. Kestrel의 전체 흐름은 네 단계로 이루어진다. 1) 초기화 단계에서는 LVLM에게 질문을 제시해 초기 답변을 얻고, 이를 검증 가능한 ‘주장’ 형태로 변환한다. 각 주장은 존재, 색상, 개수, 위치 등 구체적인 시각 속성을 포함하고, 해당 속성을 검증할 시각 엔티티를 지정한다. 2) 에이전트 그라운딩 단계에서는 최신 세그멘테이션 모델 SAM3을 호출해 주장에 명시된 엔티티를 찾아 마스크, 바운딩 박스, 크롭‑줌 뷰 등 시각 증거를 수집한다. 수집된 시각 증거는 자동으로 텍스트 증거로 변환된다. 예를 들어, 존재 주장은 “해당 객체가 1개 이상 존재한다”는 문장으로, 개수 주장은 “총 3개”와 같은 숫자 문장으로, 색상 주장은 “빨간색”이라는 색상 서술로, 위치 주장은 “왼쪽 위에 있다”와 같은 공간 관계 문장으로 변환된다. 모든 증거는 고유 인용 번호와 함께 구조화된 데이터베이스에 저장된다. 3) 주장‑레벨 검증 단계에서는 LVLM을 ‘판사’ 역할로 활용한다. 판사는 제공된 증거만을 근거로 각 주장에 대해 ‘지원’, ‘반박’, ‘불충분’ 중 하나를 선택하고, 신뢰도 점수와 증거 인용을 포함한 간단한 이유를 출력한다. 판정 결과는 전체 답변에 대한 최종 verdict로 집계된다. 하나라도 높은 신뢰도로 반박되면 전체 답변은 ‘반박’으로, 모든 주장이 높은 신뢰도로 지원되면 ‘지원’으로, 그 외는 ‘불충분’으로 라벨링한다. 이 과정은 모델이 내부 토큰 확률에만 의존하는 기존 방식과 달리, 외부 시각 증거에 기반한 투명한 검증을 제공한다. 4) 자기‑교정 단계에서는 증거‑게이트 기반 업데이트 전략을 적용한다. 고신뢰 증거가 확보된 경우에만 답변을 수정하고, 그렇지 않은 경우 현재 답변을 유지하면서 추가 증거 수집 라운드를 진행한다. 교정 과정은 상태를 유지하며, 이전 라운드의 주장·증거·판정 정보를 활용해 다음 라운드에 검증이 남은 주장에 우선순위를 둔다. 라운드 수는 사전에 정의된 상한(보통 3~4회) 이하로 제한되며, 답변이 연속적으로 ‘지원’ 판정을 받으면 조기 종료한다. 최종 출력은 수정된 답변과 함께 전체 검증 추적 로그(증거 인용, 판정 이유 등)이다. 실험에서는 두 주요 벤치마크를 사용했다. POPE는 MS‑COCO, A‑OKVQA, GQA 데이터셋을 기반으로 무작위, 인기, 적대적 샘플링을 포함한 다중 평가 환경을 제공한다. MME‑Hallucination은 존재, 개수, 위치, 색상 등 세부 오류 유형을 정밀하게 측정한다. Qwen‑3‑VL(8B)와 InternVL‑3.5(8B) 두 최신 LVLM을 백본으로 사용했으며, 기존 훈련‑무료 방법(VCD, OPERA, Woodpecker, DeGF 등)과 직접 비교했다. 결과는 Kestrel이 POPE에서 평균 3.31%p, MME‑Hallucination에서 28.34점의 정확도 향상을 달성했으며, 특히 존재·개수·위치·색상 전반에 걸쳐 일관된 개선을 보였다. Ablation 실험에서는 그라운딩 에이전트와 자기‑교정 모듈 각각이 약 2.0%p씩 성능에 기여함을 확인했다. 또한 Kestrel은 모든 단계에서 증거 인용과 판정 로그를 제공함으로써, 사용자가 언제, 왜 답변이 수정됐는지 투명하게 추적할 수 있다. 이는 모델 신뢰성을 높이고, 실제 서비스에서 오류 진단 및 사용자 피드백 루프에 활용될 수 있다. 결론적으로, Kestrel은 외부 시각 근거와 LVLM‑판사를 결합해 훈련‑무료로 환각을 억제하는 새로운 패러다임을 제시한다. 구조화된 증거 수집, 증거‑중심 검증, 증거‑게이트 교정이라는 세 가지 핵심 설계가 서로 보완하며, 높은 성능 향상과 해석 가능성을 동시에 달성한다. 향후 연구에서는 더 다양한 시각 도구와 멀티모달 증거 유형을 통합하거나, 다른 도메인(예: 의료 영상)에서의 적용 가능성을 탐색할 여지가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기