대형 비전 언어 모델 객체 환각 완화를 위한 진실성 기반 사전 개입
초록
본 논문은 대형 비전‑언어 모델(LVLM)에서 발생하는 객체 환각(Object Hallucination, OH)을 내부 은닉 상태를 활용해 고특이도 토큰 수준 지표로 탐지하고, 공통의 “진실성 방향”을 학습한 뒤 디코딩 과정에 사전 개입(Pre‑Intervention)하는 TruthPrInt 프레임워크를 제안한다. 또한 서로 다른 LVLM과 데이터셋 간에 전이 가능한 공통 환각 잠재 공간을 정렬하는 ComnHallu 기법을 도입해 OOD 상황에서도 높은 검출·완화 성능을 달성한다. 실험 결과, 주요 LVLM(MiniGPT‑4, LLaVA‑1.5, mPLUG‑Owl2 등)과 대표 OH 벤치마크(CHAIR, POPE, LLaVA‑Bench)에서 기존 최첨단 방법들을 크게 앞선다.
상세 분석
본 연구는 LVLM 내부 은닉 상태가 토큰 수준에서 환각 여부를 고특이도로 판단할 수 있다는 두 가지 핵심 발견에 기반한다. 첫째, 객체 토큰 직전의 은닉 상태를 수집하고, 이를 이진 분류기(3‑layer MLP)로 학습하면 False Positive Rate(FPR)를 1 % 이하로 낮추면서 Likelihood Ratio for Positive results(LR⁺)가 20에 달하는 높은 특이도를 얻는다. 이는 전체 정확도는 낮지만, 환각 토큰을 거의 놓치지 않고 오탐을 최소화한다는 의미다. 둘째, 서로 다른 LVLM(예: MiniGPT‑4, LLaVA‑1.5, mPLUG‑Owl2)에서 추출한 은닉 상태가 공통의 잠재 서브스페이스에 투영될 때 유사한 환각 패턴을 공유한다는 점이다. 이를 확인하기 위해 각 모델의 은닉 상태 공분산을 고유값 분해하고, 상위 d′ 차원의 고유벡터를 기반으로 독립 서브스페이스(K_S, K_T)를 구성한다. 이후 선형 정렬 행렬 M을 통해 두 서브스페이스를 정렬함으로써 소스와 타깃 도메인 간 분포 차이를 최소화한다. 이 과정은 무감독 방식이며, 데이터와 모델이 동시에 변하는 상황에서도 환각 검출기의 전이성을 보장한다.
TruthPrInt은 위에서 학습된 “진실성 방향”(truthful direction)을 디코딩 중에 활용한다. 구체적으로, 토큰 생성 시 현재 은닉 상태가 진실성 서브스페이스에 얼마나 정렬되는지를 측정하고, 일정 임계값 이하일 경우 해당 토큰을 “환각 가능”으로 판단한다. 그런 토큰이 감지되면, 사전 개입 단계에서 디코더를 이전 단계로 되돌리거나, 진실성 방향으로 강제 투영하여 다음 토큰을 재생성한다. 이 방식은 기존 Contrastive Decoding이나 후처리 방식과 달리 토큰 수준에서 실시간으로 개입함으로써 연산 비용을 크게 늘리지 않으면서도 환각을 억제한다.
실험 설계는 크게 두 축으로 나뉜다. (1) 인‑도메인 평가: 동일 데이터셋(CC‑Sbu‑Align)과 모델에서 학습·검증·테스트를 수행해 내부 상태 기반 검출기의 기본 성능을 측정한다. (2) 아웃‑오브‑도메인(OOD) 평가: 다른 데이터셋(CHAIR, POPE, LLaVA‑Bench)과 서로 다른 LVLM에 대해 ComnHallu 정렬 후 검출·완화 성능을 검증한다. 결과는 모든 모델·벤치마크에서 TruthPrInt이 기존 최첨단 방법(Contrastive Decoding, 후처리 기반 접근 등)보다 평균 8 %15 % 높은 F1 점수와 낮은 환각 발생률을 기록한다. 특히, FPR 0.01 수준에서 LR⁺가 1822에 달해 실용적인 고특이도 검출이 가능함을 보여준다.
이 논문은 LVLM 내부 표현을 환각 탐지에 활용한다는 새로운 패러다임을 제시한다. 기존 연구가 주로 전체 응답의 신뢰도(uncertainty)나 어텐션 패턴에 의존했지만, 본 연구는 토큰 직전 은닉 상태를 직접 활용해 “전망형”(pre‑emptive) 개입을 가능하게 한다. 또한, 공통 잠재 서브스페이스 정렬을 통해 모델·데이터 전이성을 확보함으로써 실제 서비스 환경에서 다양한 LVLM과 데이터 흐름에 적용 가능한 범용 솔루션을 제공한다. 향후 연구에서는 더 큰 차원(d′)의 서브스페이스 탐색, 멀티모달 정렬(이미지 특징과 텍스트 은닉 상태 동시 정렬), 그리고 사용자 피드백을 통한 동적 진실성 방향 업데이트 등으로 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기