시각 토큰 프루닝으로 멀티모달 LLM의 환각 감소

멀티모달 대형 언어 모델(MLLM)은 텍스트와 이미지를 동시에 이해하고 생성하는 능력으로 다양한 응용 분야에서 주목받고 있지만, 이미지와 텍스트가 불일치하는 ‘환각’ 현상이 여전히 큰 장애물이다. 기존 연구는 추가 데이터로 재학습하거나, 외부 지식·특수 디코딩 전략을 도입해 환각을 억제하려 했지만, 이는 모두 연산 비용을 증가시키는 단점이 있다. 본 논문은 환각이 시각 토큰에 대한 어텐션 부족과 토큰의 과잉으로 인해 발생한다는 두 가지 핵심 관찰을 제시한다. 첫째, 시각 토큰은 전체 입력 중 비중이 크지만, 자기‑어텐션 단계에서 시각 토큰에 할당되는 어텐션 점수가 현저히 낮다. 둘째, 시각 토큰 중 다수는 중복되거나 정보량이 적어 모델의 어텐션을 분산시킨다. 이러한 현상이 누적되면 핵심 시각 정보가 충분히 반영되지 않아 모델이 이미지와 무관한 텍스트를 생성하게 된다. 이를 해결하기 위해 저자들은 KV‑Cache 프루닝 기반의 훈련‑무료 방법인 PruneHal을 설계했다. KV‑Cache는 디코딩 시 이전 토큰들의 키·밸류를 저장해 재사용하는 메커니즘이며, 여기서 시각 토큰에 해당하는 키·밸류를 선택적으로 제거함으로써 모델이 남은 토큰에 더 높은 어텐션을 할당하도록 만든다. PruneHal의 초기 버전은 ‘Top‑K 프루닝’이다. 각 디코딩 단계에서 시각 어텐션 점수가 높은 상위 K개의 토큰만을 보존하고, 나머지는 KV‑Cache에서 삭제한다. 실험 결과, Top‑K 프루닝만으로도 평균 시각 어텐션이 크게 상승하고, 환각 비율이 현저히 감소한다는 것을 확인했다. 그러나 고정된 K값은 디코딩 단계마다 시각 정보의 중요도가 변한다는 점을 반영하지 못한다. 이에 따라 ‘적응형 프루닝’ 전략을 도입했다. 매 디코딩 단계마다 이전 단계까지 누적된 시각 어텐션 분포를 추적하고, 사전에 정의된 어텐션 임계값보다 낮은 토큰을 점진적으로 제거한다. 이 과정은 다음과 같이 이루어진다. (1) 현재 단계의 어텐션 맵 A를 평균화해 시각 토큰에 대한 어텐션 점수 Aᵥ를 얻는다. (2) Aᵥ를 히스토리와 비교해 임계값 r·threshold를 적용, 해당 기준 이하인 토큰을 후보로 선정한다. (3) 후보 토큰을 KV‑Cache에서 삭제하고, 남은 토큰만으로 다음 단계의 어텐션을 계산한다. 이렇게 하면 초기에는 충분한 시각 정보를 유지하면서도, 디코딩이 진행될수록 불필요한 토큰을 효율적으로 제거해 어텐션 집중도를 최적화한다. 프루닝 구현은 KV‑Cache의 키·밸류 행렬을 인덱싱해 선택된 토큰에 해당하는 행만 남기고 나머지는 삭제하는 단순 슬라이싱 연산으로 이루어진다. 텍스트 토큰에 대한 KV‑Cache는 전혀 건드리지 않으며, 언어 모델의 사전 지식은 그대로 보존된다. 따라서 기존 모델 파라미터를 수정할 필요가 없고, 추가적인 학습 단계도 필요하지 않다. 실험에서는 네 가지 대표적인 MLLM(LLaVA‑v1.5‑7B, InstructBLIP‑7B, Qwen‑VL‑7B, 그리고 추가적인 베이스 모델)과 다섯 개 이상의 환각 평가 벤치마크(MS‑COCO, VQA‑X, Hallucination‑Bench, POPE, CHAIR 등)를 사용했다. PruneHal을 적용한 결과, 모든 모델에서 시각 어텐션 평균이 10~30% 상승했으며, 환각 비율은 15~30% 감소했다. 특히, 기존 디코딩 기반 환각 완화 기법(OPERA, VCD, DeCo 등)과 병합했을 때는 각 벤치마크에서 최고 수준의 정확도와 낮은 환각 지표를 기록했다. PruneHal의 장점은 다음과 같다. (1) 훈련‑무료이며, 기존 모델에 바로 적용 가능한 플러그‑인 형태다. (2) KV‑Cache 프루닝은 메모리와 연산량을 거의 추가하지 않아 실시간 추론에 적합하다. (3) 모델‑agnostic 특성으로 다양한 MLLM에 호환된다. (4) 기존 환각 완화 디코딩 전략과 시너지 효과를 낼 수 있다. 하지만 한계점도 존재한다. 어텐션 점수 자체가 부정확하거나 노이즈가 많은 경우, 중요한 시각 토큰이 과도하게 삭제될 위험이 있다. 또한 현재 실험은 정적인 이미지 입력에 국한되며, 비디오나 연속 프레임을 다루는 멀티모달 LLM에 대한 적용 가능성은 아직 검증되지 않았다. 향후 연구에서는 어텐션 신뢰성을 보강하는 메커니즘(예: 멀티‑헤드 어텐션 통계, 외부 시각 신뢰도 평가)과 비디오 프루닝 전략을 결합해 보다 일반화된 환각 완화 프레임워크를 구축할 필요가 있다. 요약하면, PruneHal은 KV‑Cache 기반의 적응형 시각 토큰 프루닝을 통해 MLLM의 시각 어텐션을 집중시키고, 환각을 효과적으로 감소시키는 새로운 패러다임을 제시한다. 훈련 비용이 전혀 들지 않으며, 추론 효율성도 유지하면서도 SOTA 수준의 성능 향상을 달성한다는 점에서 멀티모달 AI 시스템의 실용화에 큰 기여를 할 것으로 기대된다.

시각 토큰 프루닝으로 멀티모달 LLM의 환각 감소

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기