SchröMind 양자역학 브릿지로 멀티모달 LLM의 환각을 억제하는 새로운 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 멀티모달 대형 언어 모델(MLLM)에서 시각 입력과 텍스트 출력이 불일치하는 ‘환각’ 현상을 최소화하기 위해, 토큰 수준의 활성화 맵을 최적 운송 문제로 정의하고 슈뢰딩거 브릿지(Schrödinger Bridge) 해법을 적용한다. 경량 학습만으로 토큰별 보정 벡터를 학습하고, 기존 모델 성능을 유지하면서 POPE와 MME 벤치마크에서 최첨단 정확도를 달성한다.

상세 분석

SchröMind는 기존의 활성화 스티어링 기법이 모든 토큰에 동일한 방향을 적용한다는 한계를 극복한다. 저자는 환각 활성화 분포 P_hallu와 사실 활성화 분포 P_fact를 각각 고차원 확률 공간에 정의하고, 두 분포 사이의 최소 운송 비용을 구하는 최적 운송(Optimal Transport) 문제를 슈뢰딩거 브릿지 문제(SBP) 형태로 변형한다. 이때 엔트로피 정규화 항 ε KL(π‖P_hallu×P_fact)를 추가해 학습 안정성을 확보하고, 정규화된 운송 계획 π* 를 통해 토큰별 변환 확률을 얻는다.

수식 (2)에서 제시된 목적함수는 전통적인 OT에 엔트로피 항을 더한 형태이며, 이는 Sinkhorn 알고리즘을 이용한 빠른 근사 계산을 가능하게 한다. 저자는 이를 정적 해법(EOT)과 동적 해법(SBP) 두 가지로 활용한다. 정적 해법은 즉시 토큰 활성화를 π* 에 의해 매핑하는 “스냅샷” 보정이며, 동적 해법은 시간 t∈

SchröMind 양자역학 브릿지로 멀티모달 LLM의 환각을 억제하는 새로운 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기