멀티모달 예측을 위한 지역 설명 프레임워크 LEMON
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
LEMON은 모델-불가지론적 방식으로 멀티모달 블랙박스 예측을 설명한다. 그룹 구조화된 희소 라쏘 서브시지를 이용해 각 모달리티의 기여도와 모달리티 내부 특징 중요도를 동시에 도출하며, 기존 방법에 비해 35‑67배 적은 쿼리와 2‑8배 빠른 실행 시간을 달성한다.
상세 분석
본 논문은 멀티모달 딥러닝 모델의 해석 가능성을 높이기 위해 LIME의 아이디어를 확장한 LEMON 프레임워크를 제안한다. 핵심 아이디어는 ‘모달리티‑인식 그룹 구조화 희소 라쏘(Sparse Group Lasso)’를 이용해 하나의 서브시지 모델에 모달리티 수준과 특징 수준의 두 단계 설명을 동시에 학습시키는 것이다.
첫 단계는 해석 가능한 단위(이미지는 슈퍼픽셀·패치, 텍스트는 토큰·구, 표형 데이터는 컬럼 등)를 정의하는 파티셔너 인터페이스이다. 각 파티셔너는 해당 모달리티의 입력을 이진 마스크로 켜고 끄는 방식으로 변형할 수 있게 만든다. 이렇게 정의된 K개의 단위는 모달리티별 그룹 gₘ에 할당되어, 그룹 라쏘 정규화에서 전체 모달리티를 선택·제거하는 제어 변수를 제공한다.
두 번째 단계는 로컬 이웃 구축이다. N번의 반복을 통해 무작위 이진 마스크 zᵢ를 샘플링하고, 마스크에 따라 원본 입력 x를 모달리티‑별 베이스라인(예: 평균 이미지,
댓글 및 학술 토론
Loading comments...
의견 남기기