정보를 담은 반사실 설명: 사람에게 선호되는 XAI 새로운 접근

본 논문은 최근 XAI(Explainable AI) 분야에서 주목받고 있는 “반사실(semi‑factual)” 설명의 한계를 짚고, 이를 보완하는 새로운 알고리즘 **Informative Semi‑Factuals (ISF)** 를 제안한다. 반사실 설명은 “예측 결과가 동일하게 유지된다”는 점을 강조하지만, 기존 연구는 주로 **단일 핵심 특징을 가능한 크게 변형**시키는 데 초점을 맞추었으며, 왜 그러한 큰 변형이 결과에 영향을 주지 않는지에 대한 메커니즘을 제공하지 못했다. 이는 사용자가 모델의 의사결정 구조를 이해하는 데 충분히 도움이 되지 않는다. ### 1. 연구 배경 및 필요성 - **반사실 vs. 반사실**: 반사실은 ‘If only’ 형태의 카운터팩추얼과 달리 결과가 변하지 않는 상황을 설명한다. 이는 사용자가 “이 특징은 결과에 크게 영향을 미치지 않는다”는 인식을 갖게 하여, 특정 특징의 중요성을 재평가하도록 만든다. - **기존 방법의 한계**: MDN(Most Distant Neighbor) 등은 가장 멀리 떨어진 동일 클래스 데이터를 찾아 키‑특징을 크게 변형하지만, “왜” 그런 변형이 가능한지에 대한 설명이 없다. ### 2. 핵심 아이디어: 시소(seesaw) 패턴 저자들은 좋은 반사실이 **키‑특징의 기여도가 감소하고, 동시에 숨겨진 비키‑특징의 기여도가 증가**하는 ‘시소 패턴’을 보인다고 가정한다. 이를 정량화하기 위해 - **ϕ_j(t)**: 경로 γ(t) 상에서 특징 j 의 주변 기여도 - **Tϕ_j**: 기여도 변화 추세(시간에 대한 미분을 적분한 값) 두 가지 새로운 제약을 정의한다. 1. **키‑특징 약화 (Key‑feature Weakening)**: Tϕ_k < ε (ε < 0) 2. **숨겨진‑특징 강화 (Hidden‑feature Strengthening)**: 비키‑특징 중 Tϕ_j 가 가장 큰 j*를 찾는다. ### 3. ISF 알고리즘 설계 다중 목표 최적화 형태로 문제를 정의한다. - **목표 o₁**: 핵심 특징의 절대 변화량을 최대화 (‑o₁ 최소화) - **목표 o₂**: 비핵심 특징들의 전체 L1 거리 최소화 (유사성 유지) - **제약 g₁**: 예측 라벨 동일성 보장 (I( f̂(x)=f̂(x_q) )=0 - **제약 g₂**: 데이터 분포 내 plausibility 보장 (log P(x) ∈

정보를 담은 반사실 설명: 사람에게 선호되는 XAI 새로운 접근

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기