시각 언어 모델의 객체 환각을 막는 ‘REVIS’: 희소 잠재공간 스티어링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

REVIS는 훈련 없이 시각‑언어 모델(LVLM)의 내부 잠재공간에서 시각 정보와 언어 선행을 정교히 분리하고, 가장 효과적인 층에만 희소하게 개입함으로써 객체 환각을 평균 19 % 감소시키면서 일반 추론 능력을 유지한다.

상세 분석

본 논문은 대형 시각‑언어 모델(LVLM)에서 발생하는 객체 환각 현상을 ‘시각 정보의 억제’와 ‘언어 선행(prior)’의 과도한 영향으로 규정한다. 저자들은 깊은 층에서 시각‑언어 특징이 선형적으로 구분 가능하지만, 기존 스티어링 벡터는 시각 정보와 언어 선행이 고도로 얽혀 있어 강도 높은 개입 시 모델 붕괴(무한 반복, 출력 소멸)를 초래한다는 점을 실험적으로 입증한다. 이를 해결하기 위해 REVIS는 두 단계의 수학적 처리를 제안한다. 첫째, ‘순수 시각 벡터’를 얻기 위해 원시 시각 차이 벡터 v_raw와 언어 선행 벡터 v_prior를 정규화한 뒤, 정규 직교 투영(orthogonal projection)으로 v⊥_vis = v_raw ⟂ v_prior 를 계산한다. 이 과정은 시각 정보만을 보존하고 언어 선행과의 내적을 0으로 만든다. 둘째, 층 선택을 위해 별도 캘리브레이션 데이터셋을 사용해 각 층 ℓ에서 v⊥_vis가 사실 상태(h_gt)와 환각 상태(h_hall) 사이의 점수를 최대화하는지를 평가한다. 최적 층 ℓ에서만 스티어링 강도 α를 적용해 h(ℓ) ← h(ℓ*) + α·v⊥_vis(ℓ*) 로 수정한다.

실험에서는 Qwen2.5‑VL, LLaVA‑v1 등 대표적인 LVLM에 REVIS를 적용했으며, Nullu·HallucinationBench 등 5개 공개 벤치마크에서 CHAIR‑S, CHAIR‑I, MM‑VET 지표를 측정했다. 결과는 기존 VTI와 대비해 CHAIR‑S를 평균 14 %→9 % 수준으로 낮추면서 MM‑VET은 70 → 72 % 로 소폭 상승, 즉 정확도와 일반 추론 능력 모두 향상됨을 보여준다. 또한 α를 0.1~0.5 구간에서 선형적으로 성능이 개선되지만, α>0.7에서는 비정상적 출력이 발생하는 기존 방법과 달리, REVIS는 안정적인 출력을 유지한다.

기술적 기여는 크게 세 가지이다. (1) 시각‑언어 얽힘을 정량화하고, 순수 시각 벡터를 정교히 추출하는 방법론; (2) 층‑별 시각 정보의 분포를 분석해 최소 개입으로 최대 효과를 내는 ‘희소 스티어링’ 전략; (3) 훈련‑프리 방식으로 기존 파인튜닝·RLHF 기반 방법보다 10배 이상 빠른 추론 속도와 낮은 메모리 오버헤드.

비판적 시각에서는 몇 가지 제한점이 있다. 첫째, orthogonal projection이 완전한 선형 독립성을 보장한다는 가정이 실제 비선형 변환이 많은 트랜스포머 구조에 얼마나 타당한지 추가 검증이 필요하다. 둘째, 캘리브레이션 단계에서 사용된 데이터셋이 특정 도메인(예: 일상 사진)으로 편향될 경우, 다른 도메인(의료 영상, 위성 사진 등)에서는 최적 층 ℓ*가 달라질 가능성이 있다. 셋째, 현재는 단일 시각‑언어 모델에만 적용했으며, 멀티모달 어텐션이 다중 입력(텍스트+오디오 등)으로 확장될 경우 동일한 orthogonalization이 적용 가능한지 미지수이다. 그럼에도 불구하고, REVIS는 “내부 메커니즘을 직접 교정한다”는 점에서 기존 사후 필터링 방식과 차별화되며, 훈련 비용 없이도 실시간 서비스에 적용 가능한 실용적 솔루션으로 평가할 수 있다.

시각 언어 모델의 객체 환각을 막는 ‘REVIS’: 희소 잠재공간 스티어링

초록

상세 분석

댓글 및 학술 토론

의견 남기기