이해하지 못한 AI를 신뢰할 수 있을까
초록
본 연구는 인터랙티브 예측 과제를 통해 모델 해석가능성과 결과 피드백이 인간의 AI 신뢰 및 성과에 미치는 영향을 실험적으로 조사한다. 해석가능성은 신뢰에 큰 영향을 주지 않았으며, 반면 결과 피드백은 신뢰를 현저히 향상시켰다. 두 요인 모두 과제 수행 능력에는 제한적인 향상만을 보였다. 이는 해석가능성에 대한 과도한 기대가 실제 신뢰 증진에 기여하지 않을 수 있음을 시사한다.
상세 분석
본 논문은 “해석가능성(interpretability)”과 “결과 피드백(outcome feedback)”이라는 두 변수가 인간 사용자의 AI 신뢰(trust)와 AI 보조 예측 작업 성과(performance)에 미치는 효과를 정량적으로 평가한다. 실험 설계는 2×2 요인 설계로, 참가자를 네 가지 조건(해석가능성 × 피드백)에 무작위 배정하였다. 인터랙티브 예측 과제는 참가자가 연속적인 데이터 포인트를 관찰하고, AI 모델이 제공하는 예측값을 활용해 최종 결정을 내리는 형태였다. 해석가능성 조건에서는 모델이 예측값과 함께 특징 중요도 혹은 부분적인 결정 트리를 시각화해 제공했으며, 비해석조건에서는 순수 예측값만 제시되었다. 결과 피드백 조건에서는 각 라운드 종료 후 실제 정답과 모델의 오차를 명시적으로 알려주었고, 비피드백 조건에서는 이러한 정보를 제공하지 않았다.
신뢰 측정은 사전·사후 설문을 통해 주관적 신뢰 점수를 수집했으며, 성과 측정은 예측 정확도와 작업 시간으로 정의하였다. 통계 분석 결과, 해석가능성은 주관적 신뢰 점수에 유의한 차이를 만들지 못했으며, 효과 크기도 매우 작았다(p > 0.05, η²≈0.02). 반면 결과 피드백은 신뢰 점수를 평균 0.45점 상승시키는 강력한 효과를 보였으며, 이는 p < 0.001, η²≈0.18로 통계적으로 유의미했다. 성과 측면에서는 두 요인 모두 소폭의 정확도 향상을 보였지만, 효과 크기는 모두 중간 이하(η²<0.05)였으며, 특히 피드백이 없는 경우 해석가능성만으로는 성과 향상이 거의 관찰되지 않았다.
이러한 결과는 해석가능성 자체가 신뢰를 자동으로 증진시키지 않으며, 사용자가 실제로 모델의 결과를 경험하고 피드백을 받는 과정이 신뢰 형성에 핵심적임을 보여준다. 또한, 신뢰가 증가한다고 해서 성과가 비례적으로 향상되는 것이 아니라, 신뢰와 성과는 부분적으로 독립적인 메커니즘에 의해 조절된다는 점을 시사한다. 논문은 해석가능성 연구가 “해석을 제공한다”는 단계에서 멈추지 않고, 그 해석이 사용자의 의사결정 과정에 어떻게 통합되는지를 검증하는 실증적 접근이 필요하다고 주장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기