정밀도가 높을수록 위험? 개념 기반 XAI에서 사람들의 인식 한계

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 연구는 철도 위험 상황을 분류하는 시뮬레이션 AI가 제시하는 개념 이미지(유사 이미지)를 통해, 사람들이 AI가 관련·비관련 특징을 어떻게 활용하는지를 인식하는지를 조사했다. 거리, 방향, 행동은 관련 특징으로, 배경은 비관련 특징으로 설정하였다. 실험 결과 참가자들은 관련 특징이 일관되게 유지될 때 AI를 더 긍정적으로 평가했지만, 비관련 배경이 일관되든 변동되든 평가에 큰 차이를 보이지 않았다. 이는 사람들은 AI가 비관련 특징에 의존할 때 이를 인식하지 못하거나, 오히려 정밀함으로 착각할 수 있음을 시사한다.

상세 분석

**
이 논문은 개념 기반 설명가능 인공지능(XAI)의 한계에 대해 심층적으로 탐구한다. 먼저 “과도한 정밀성”이라는 개념을 정의하고, 이는 모델이 실제로는 불필요하거나 비관련한 시각적 요소까지 학습함으로써 일반화 능력이 저하되는 현상을 의미한다. 연구자는 이러한 현상이 인간 사용자가 AI를 평가할 때 어떻게 반영되는지를 실험적으로 검증하고자 했다.

실험 설계는 2 × 2 × 2 × 2 요인 완전 교차 설계로, 네 가지 시각적 특징(거리, 방향, 행동, 배경)의 동일/변동 여부를 조작했다. ‘거리’는 인간이 위험 판단에 가장 크게 의존하는 요소로, 이전 연구(Müller, 2025a)와 일치한다. ‘방향’은 충돌 가능성을 암시하지만 경험적 데이터가 부족해 가설 수준에서 포함되었으며, ‘행동’은 위험 상황에서 보조적인 단서로 간주되었다. ‘배경’은 철도 안전과는 무관한, 데이터 수집 과정에서 우연히 형성된 상관관계에 해당한다.

AI는 이미지 분류 후, 내부 활성화가 유사한 다른 이미지들을 5장씩 제시함으로써 개념 기반 설명을 제공한다. 여기서 동일한 특징이 유지되면 해당 특징이 AI의 의사결정에 사용된 것으로 해석되고, 변동하면 무작위화된 것으로 해석된다. 참가자는 먼저 AI의 위험/비위험 판단에 동의 여부를 표시하고, 이어서 슬라이더(0‑100)로 AI 성능을 평가한다.

통계 분석은 2 × 2 × 2 × 2 × 2 반복 측정 ANOVA를 사용했으며, 주요 결과는 다음과 같다. (1) 거리, 방향, 행동 모두에서 ‘동일’ 조건이 ‘변동’ 조건보다 높은 평균 평점을 얻었으며, 효과 크기(ηp²)는 거리 ≈ 0.46, 방향 ≈ 0.40, 행동 ≈ 0.47 수준으로 강했다. 이는 인간이 AI가 관련 특징을 정확히 포착했을 때 신뢰를 부여한다는 가설을 뒷받침한다. (2) 배경에 대해서는 평균 평점 차이가 통계적으로 유의하지 않았다(ηp² ≈ 0.05). 즉, 비관련 특징이 일관되게 유지되든 무작위화되든 참가자들의 평가에 큰 영향을 미치지 않았다. (3) AI 판단에 동의했을 때 관련 특징에 대한 ‘동일’ 효과가 더욱 증폭되는 상호작용이 관찰되었으며, 이는 사용자가 AI와 의견이 일치할 경우 설명의 정밀성을 더 긍정적으로 받아들인다는 점을 시사한다.

이러한 결과는 두 가지 중요한 함의를 가진다. 첫째, 현재의 개념 기반 XAI는 인간 사용자가 비관련 특징에 기반한 편향을 감지하기 어렵게 만든다. 배경이 동일하게 반복될 경우, 사용자는 이를 ‘정밀함’으로 오인하고 AI의 견고성을 과대평가할 위험이 있다. 둘째, 설명 설계 시 ‘무작위화’를 명시적으로 강조하거나, 비관련 특징을 시각적으로 구분하는 메타 정보를 제공해야 사용자가 모델의 실제 일반화 능력을 올바르게 판단할 수 있다.

연구는 제한점도 지적한다. 실험에 사용된 이미지가 모두 동일한 테스트 시설에서 촬영돼 배경의 변이성이 제한적이었으며, 참가자들이 AI의 내부 메커니즘을 전혀 알지 못한 상태에서 평가했기 때문에 실제 현장 적용 시 다른 결과가 나올 가능성이 있다. 또한, 배경 외에 다른 잠재적 비관련 특징(예: 조명, 색채 등)을 통제하지 않아 결과 해석에 혼동이 남는다. 향후 연구에서는 다양한 도메인과 복합적인 비관련 요인을 포함한 설계가 필요하다.

정밀도가 높을수록 위험? 개념 기반 XAI에서 사람들의 인식 한계

초록

상세 분석

댓글 및 학술 토론

의견 남기기