시각 단서 추적으로 환각을 억제하는 ClueTracer
초록
본 논문은 멀티모달 추론 모델에서 발생하는 ‘추론 드리프트’를 규명하고, 질문‑출력‑시각 흐름을 역추적해 핵심 시각 단서를 자동으로 찾아내는 훈련·파라미터 불필요 플러그인 ClueTracer를 제안한다. 새로운 평가 지표 ClueRecall을 도입해 레이어별 단서 회수 능력을 측정하고, 이를 기반으로 질문 토큰 → 출력 토큰 → 시각 토큰 순으로 단서를 추적함으로써 hallucination을 크게 감소시킨다. 실험 결과, 추론 전용 모델에서 평균 1.21배, 비추론 모델에서도 1.14배의 성능 향상을 달성한다.
상세 분석
ClueTracer 논문은 대형 멀티모달 추론 모델(MLRM)이 긴 추론 체인 동안 시각적 근거를 충분히 활용하지 못하고 언어적 편향에 의존하면서 발생하는 ‘추론 드리프트’를 핵심 문제점으로 지적한다. 기존의 추론‑비추론 구분 없이 적용되는 contrastive decoding, logit steering, attention reallocation 같은 사후 보정 기법은 토큰 수준에서 전역적인 편향을 주입해 단순 응답에는 효과적이지만, 다단계 추론에서는 중간 단계에서 중요한 시각 단서를 누락시키는 부작용을 낳는다. 저자들은 이를 해결하기 위해 두 가지 관찰을 제시한다. 첫째, 질문‑관련 핵심 토큰은 출력 단계에서 주목도 변동이 크며, 이 변동성을 이용해 키 토큰을 자동 탐지할 수 있다. 둘째, 질문 토큰이 특정 출력 토큰에 강하게 매핑될 때, 해당 출력 토큰은 다시 제한된 시각 토큰 집합에 집중된 attention을 보인다. 즉, 질문 → 출력 → 시각이라는 삼중 흐름이 핵심 단서를 연결한다는 점이다. 이를 정량화하기 위해 ClueRecall이라는 레이어‑별 시각 단서 회수율 지표를 정의한다. ClueRecall은 각 레이어의 attention 분포를 기반으로 질문‑관련 시각 영역(바운딩 박스)과의 겹침 비율을 평균 Recall 형태로 산출한다. 실험에서는 7B 규모 모델의 28 레이어 중 18~24 레이어에서 약 50%의 ClueRecall을 기록, 이 레이어가 시각 단서 추출에 가장 효율적임을 확인한다. ClueTracer는 이러한 관찰을 바탕으로 inference‑time에 다음 과정을 수행한다. (1) 질문 토큰 중 attention variance가 높은 키 토큰을 식별하고, (2) 키 토큰과 높은 연관성을 보이는 출력 토큰을 선택한다. (3) 선택된 출력 토큰의 attention map을 시각 토큰에 투사해 최소한의 시각 패치를 추출한다. 이 패치는 이후 모델에 재입력되거나, attention mask로 활용돼 모델이 핵심 단서에만 집중하도록 유도한다. 중요한 점은 이 전체 파이프라인이 추가 학습이나 파라미터 튜닝 없이 기존 모델 구조에 플러그인 형태로 삽입 가능하다는 것이다. 실험에서는 R1‑OneVision, Ocean‑R1, MM‑Eureka 등 다양한 추론 전용 아키텍처에 적용했을 때 HallusionBench, VMCBench 등에서 평균 4.25×, 1.17×의 정확도 향상을 기록했다. 또한 LLaVA‑1.6, R1‑OneVision 같은 비추론 모델에도 적용해 GPT‑4V 수준의 성능에 근접하도록 끌어올렸다. 결과적으로 ClueTracer는 ‘질문‑출력‑시각’ 삼중 흐름을 명시적으로 활용해 추론 드리프트를 억제하고, 시각적 근거에 기반한 신뢰성 높은 답변을 생성한다는 점에서 기존 사후 보정 기법과 차별화된다.
댓글 및 학술 토론
Loading comments...
의견 남기기