SHAP 설명이 알림 처리에 미치는 실제 효과: 인간 중심 실험 분석

본 논문은 SHAP(Shapley Additive Explanations)이 실제 도메인 전문가가 머신러닝 모델이 생성한 알림을 평가할 때 실질적인 도움이 되는지를 인간‑중심 실험을 통해 검증한다. 연구 배경으로는 복잡한 블랙박스 모델이 의료, 금융 등 다양한 분야에 적용되면서, 모델의 예측 근거를 인간이 이해하고 검증할 필요성이 대두되고 있다. 기존 XAI 연구는 주로 정량적 지표나 시뮬레이션을 통해 설명 기법의 유효성을 평가했지만, 실제 인간 사용자를 대상으로 한 실험은 부족했다. 이에 저자들은 Doshi‑Velez와 Kim이 제시한 인간‑중심 평가 프레임워크를 차용해, SHAP이 알림 처리 작업에 미치는 영향을 정량·정성적으로 분석하였다. 연구 설계는 두 차례에 걸친 실험으로 구성된다. 첫 번째 실험은 within‑subject 디자인으로, 102명의 대학생(머신러닝 입문 과목 수강자)에게 SHAP이 제공된 경우와 제공되지 않은 경우를 번갈아 제시했다. 사용된 데이터는 UCI Adult 데이터셋이며, 5개의 특징만을 선택해 랜덤 포레스트 모델을 학습시켰다. 각 알림(양성 예측) 사례에 대해 참가자는 실제 라벨을 판단하고, 인지 부하를 9점 Likert 척도로 자가 보고했다. 작업 효율성은 세 가지 차원으로 측정되었다. (1) 작업 효과성: 정확도(참 양성·거짓 양성 구분 비율) (2) 작업 효율성: 소요 시간 (실험 설계상 동일 인스턴스를 두 번 제시했으므로 시간 측정은 제한적) (3) 정신 효율성: 인지 부하(자기 보고). 통계 분석에서는 정확도 차이를 검증하기 위해 McNemar 검정과 동등성 검정(TOST)을 적용했으며, 인지 부하 차이는 짝지은 t‑검정과 동등성 검정을 사용했다. 결과는 다음과 같다. SHAP 제공 시 평균 정확도는 0.61, 비제공 시 0.59로 차이가 미미했으며, χ²(1, N=978)=0.890, p=0.346으로 유의하지 않았다. 동등성 검정에서도 차이가 -0.05~0.05 구간을 벗어나지 않아 두 조건 간 실질적 차이가 없음을 확인했다. 인지 부하 측면에서도 SHAP 조건 평균 4.81, 비SHAP 조건 평균 4.74로 차이가 없었으며, t(100)=‑0.66, p=0.51이었다. 동등성 검정 역시 차이가 의미 있는 범위 밖임을 보여준다. 정성적 분석에서는 참가자들의 서면 반성을 내용 분석했으며, 10가지 증거 유형을 도출했다. 가장 빈번히 언급된 증거는 인스턴스 자체의 특징값이었고, 그 다음으로 모델의 신뢰도 점수가 등장했다. SHAP 값은 직관적이고 기대와 일치할 때만 의사결정에 활용되었으며, 비직관적이거나 복잡한 경우에는 거의 무시되었다. 이는 SHAP이 인간의 사전 지식과 일치할 때만 가치가 있다는 점을 시사한다. 두 번째 실험에서는 SHAP 설명이 인간 직관과 얼마나 일치하는지를 먼저 정량화하고, 그 일치 정도에 따라 작업 성능 차이를 측정하려 했지만, 논문 본문에 상세 결과는 제시되지 않았다. 전체적으로 연구는 SHAP이 사용자의 인지 과정에 영향을 미치지만, 실제 정확도 향상이나 작업 시간 단축에는 기여하지 못한다는 결론을 내렸다. 모델의 신뢰도 점수가 여전히 가장 강력한 판단 근거이며, SHAP은 보조적인 정보로서만 작용한다는 점을 강조한다. 연구자는 SHAP이 단독으로는 알림 처리에 충분한 가치를 제공하지 못하므로, 다른 설명 기법이나 도메인 지식과 결합해 보완할 필요가 있다고 제언한다. 또한, XAI 연구에서 흔히 가정되는 “설명 제공 = 성능 향상”이라는 직관을 실험적으로 반증함으로써, 향후 설명 기법의 실용성을 평가할 때 인간 중심 메트릭과 정성적 피드백을 동시에 고려해야 함을 강조한다.

SHAP 설명이 알림 처리에 미치는 실제 효과: 인간 중심 실험 분석

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기