모달리티 적응 디코딩으로 멀티모달 환각 방지

모달리티 적응 디코딩으로 멀티모달 환각 방지
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 멀티모달 대형 언어 모델이 한 모달리티가 다른 모달리티의 생성에 부적절하게 영향을 미치는 교차‑모달 환각을 완화하기 위해, 훈련 없이 적용 가능한 Modality‑Adaptive Decoding (MAD) 을 제안한다. 모델 자체에 “어떤 모달리티가 필요한가?” 라는 질의를 추가해 각 작업에 대한 모달리티 중요도를 추정하고, 이를 기반으로 대비 디코딩(contrastive decoding)에서 각 모달리티별 가중치를 동적으로 조정한다. CMM·AVHBench 벤치마크와 VideoLLaMA2‑AV, Qwen2.5‑Omni 등 7개 모델에 적용한 결과, 교차‑모달 환각을 평균 5‑9% 정도 크게 감소시켰다.

상세 분석

멀티모달 LLM이 텍스트, 영상, 음성 등 여러 입력을 동시에 처리하면서 발생하는 교차‑모달 환각은, 예를 들어 시각 정보가 존재하지 않음에도 불구하고 모델이 “물고기가 튀는 소리”와 같은 허위 음성 이벤트를 생성하는 현상이다. 이는 단순히 한 모달리티 내부의 오류가 아니라, 모달리티 간 상호작용 제어가 제대로 이루어지지 않아 발생한다는 점에서 기존의 단일‑모달 환각 억제 기법으로는 한계가 있다.

기존 대비 디코딩(Contrastive Decoding, CD)은 입력을 깨뜨린(노이즈, 마스킹 등) 버전과 원본을 동시에 통과시켜, 두 출력 로그잇의 차이를 이용해 ‘시각에 의존하지 않는’ 토큰을 억제한다. 그러나 CD는 모달리티‑불감(modality‑agnostic)하게 설계돼, 작업에 따라 어느 모달리티가 핵심인지 판단하지 못한다. 예를 들어 “소리는 무엇인가?”라는 질문에 시각 대비를 강하게 적용하면 오히려 성능이 저하될 수 있다.

MAD는 이러한 문제를 해결하기 위해 모델 자체의 자기‑평가(self‑assessment) 능력을 활용한다. 구체적으로, 입력 영상·음성·질문 뒤에 “이 질문을 답하기 위해 필요한 모달리티는 무엇인가?”라는 고정 프롬프트를 삽입하고, 모델이 반환하는 확률 분포를 통해 모달리티 가중치 wₘ (0~1)를 추출한다. 이 가중치는 각 모달리티가 해당 작업에 얼마나 중요한지를 정량화한다.

그 후, 기존 CD 식을
logit(y) = (1+α)·logit_clean – α·logit_noisy
에서 α를 γ·wₘ 로 대체한다. 즉,
logit_WCD(y) = logit_clean + γ·wₘ·Δₘ
여기서 Δₘ는 깨뜨린 입력과 원본 입력 사이의 로그잇 차이이며, γ는 모든 모달리티에 공통적인 기본 대비 강도이다. wₘ가 높을수록 해당 모달리티에 대한 대비가 강해져, 그 모달리티에 의존하는 토큰을 더 강하게 억제한다. 반대로 wₘ가 낮으면 대비 효과가 약해져, 불필요한 억제를 방지한다.

MAD는 훈련‑프리이며, 기존 멀티모달 LLM에 바로 적용 가능하다. 실험에서는 두 가지 교차‑모달 환각 벤치마크(CMM, AVHBench)와 7개의 최신 모델에 적용했으며, VideoLLaMA2‑AV에서는 시각‑기반 환각을 7.8%, 음성‑기반 환각을 2.0% 감소시켰고, Qwen2.5‑Omni에서는 각각 8.7%와 4.7% 개선을 기록했다. 또한, 일반적인 질문‑응답·요약·설명 등 표준 평가에서는 성능 저하가 거의 없으며, 일부 작업에서는 약간의 향상도 관찰되었다.

핵심 인사이트는 모달리티 인식과 동적 가중치 부여가 교차‑모달 환각 억제에 결정적이라는 점이다. 모델이 스스로 “이 질문에 필요한 감각은 무엇인가?”를 판단하도록 함으로써, 기존 대비 디코딩의 일률적 적용을 넘어 작업‑특화된 억제 메커니즘을 구현한다. 이는 향후 멀티모달 추론에서 모달리티 별 신뢰도 추정, 다중 감각 협업 등을 보다 정교하게 설계할 수 있는 기반을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기