XAI 평가에서 베이스라인 선택의 함정과 해결책

초록

설명 가능한 인공지능(XAI)에서Attribution 방법은 가장 널리 사용되는 기법 중 하나로, 일반적으로 Fidelity 지표를 통해 평가 및 비교됩니다. 이 지표들은 입력 이미지의 픽셀을 변경하는 데 사용되는 기준 함수에 의존합니다. 본 연구에서는 이러한 지표들이 특정 Attribution 방법을 다른 것들보다 우월하게 만들기 때문에 선택된 기준이 문제가 되는 점을 강조합니다. 특히 간단한 선형 모델에서도 일반적으로 사용되는 기준은 서로 모순되며, 이에 어떤 기준을 사용해야 하는지 질문이 제기됩니다. 본 논문에서는 기준의 두 가지 이상적인 특성을 통해 이 문제를 연구합니다: (i) 정보를 제거하고 (ii) 과도하게 분포 외(OOD) 이미지를 생성하지 않는 것입니다. 실험 결과, 현재 사용 중인 모든 기준은 이러한 두 조건을 모두 충족시키지 못하며, 정보 제거와 OOD 이미지 생성 사이에 타협이 존재합니다. 마지막으로, 최근의 특징 시각화 연구를 활용하여 모델 종속적인 새로운 기준을 도입하여 이 문제를 해결하고자 합니다.

상세 요약

본 논문은 XAI 평가에서 Attribution 방법의 성능을 측정하는 데 사용되는 Fidelity 지표에 대한 중요한 한계점을 제기합니다. 특히, Insertion과 Deletion 같은 기준 함수는Attribution 방법이 입력 이미지의 픽셀을 변경하는 방식에 따라 성능 차이를 보일 수 있다는 점입니다. 이는Attribution 방법 선택 시 특정 모델만 우월하게 만들 수 있어 공정한 평가에 어려움을 초래합니다.

논문은 이러한 문제를 해결하기 위해 기준 함수의 두 가지 이상적인 특성을 제시합니다: 정보 제거와 분포 외(OOD) 이미지 생성 방지를 목표로 합니다. 그러나 실험 결과, 현재 사용 중인 모든 기준은 이 두 조건을 동시에 충족시키지 못하며, 정보 제거와 OOD 이미지 생성 사이에 타협이 존재합니다.

따라서 논문에서는 최근의 특징 시각화 연구를 활용하여 모델 종속적인 새로운 기준 함수를 도입하고자 합니다. 이 새로운 기준은Attribution 방법을 평가할 때 정보 제거와 OOD 이미지 생성 사이의 타협점을 개선하며, 이를 통해Attribution 방법의 성능을 더 공정하게 평가할 수 있습니다.

초록

상세 요약

📜 논문 원문 (영문)