신뢰성만으로는 부족한 모델 설명의 한계

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 설명가능 인공지능에서 흔히 사용되는 “충실도”(fidelity)가 신경망의 출력과 surrogate 모델 사이의 일치 정도만을 측정하고, 실제 데이터 생성 메커니즘과는 무관함을 지적한다. 이를 보완하기 위해 선형 복원 가능성을 정량화하는 λ(f) 라는 선형성 점수를 제안하고, 합성·실제 회귀 데이터셋에서 높은 충실도를 보이는 선형 surrogate가 실제 예측 성능에서는 선형 베이스라인보다 못하거나, 분포 이동 상황에서 오히려 성능이 뒤바뀌는 사례를 실험한다. 결과는 “충실도 기반 설명”이 모델 행동을 설명할 수는 있어도, 작업에 중요한 데이터 구조를 포착한다는 보장은 없음을 보여준다.

상세 분석

이 연구는 설명가능 인공지능(XAI) 분야에서 가장 널리 쓰이는 평가 지표인 “충실도”가 실제로는 모델이 학습한 함수와 surrogate 모델 사이의 일치 정도만을 반영한다는 근본적인 한계를 폭로한다. 충실도가 높다고 해서 해당 모델이 데이터 생성 신호를 정확히 포착한다는 가정은, 특히 회귀 문제에서 비선형 구조가 존재하거나 분포 이동이 발생할 때 크게 깨진다. 저자는 이러한 문제를 정량화하기 위해 λ(f)라는 선형성 점수를 도입한다. λ(f)는 신경망 f와 최적 선형 surrogate g 사이의 결정계수(R²)를 의미하며, 1에 가까울수록 f의 출력이 선형적으로 복원 가능함을 나타낸다. 중요한 점은 λ(f)가 데이터 자체의 선형성 여부를 평가하는 것이 아니라, 학습된 함수 f 자체가 선형 서브스페이스에 얼마나 가까운지를 측정한다는 점이다.

실험은 세 단계로 구성된다. 첫 번째는 y = x·sin(x)+ε 형태의 합성 데이터로, 신경망은 R²≈0.98의 높은 성능을 보이지만 λ(f)≈‑0.01로 거의 선형 복원이 불가능함을 확인한다. 이는 λ(f)가 비선형 함수를 정확히 탐지한다는 것을 증명한다. 두 번째는 의료 보험 비용 데이터셋으로, 신경망은 선형 베이스라인보다 R²가 0.09만큼 높지만, λ(f)=0.92라는 높은 선형성 점수를 보인다. 이때 선형 surrogate는 신경망에 대한 충실도는 높지만 실제 타깃에 대한 R²는 0.67로, 선형 베이스라인(0.78)보다 못하다. 즉, 신경망이 학습한 비선형 요소가 surrogate에 의해 손실되고, 이는 “충실도”가 예측 이득을 보장하지 않음을 명확히 보여준다.

세 번째 실험은 캘리포니아 주택 가격 데이터에 분포 이동을 적용한 경우이다. 중간 80% 구간에서는 λ(f)≈0.65로 비교적 선형적이며, surrogate는 신경망보다 RMSE가 0.199만큼 크게 나빠진다. 그러나 고소득 상위 10% 구간에서는 동일한 λ(f)에도 불구하고 surrogate가 신경망보다 RMSE가 0.086 낮아 오히려 성능이 우수해진다. 이는 충실도가 유지되더라도 데이터 분포가 변하면 surrogate가 포착하는 함수 형태가 실제 예측 성능에 미치는 영향이 달라질 수 있음을 시사한다.

전체적으로 논문은 (1) λ(f)가 선형 복원 가능성을 정확히 진단하고, (2) 높은 충실도가 반드시 예측 성능 향상과 동치가 아님을, (3) 특히 분포 이동 상황에서 충실도 기반 설명이 오히려 오해를 불러일으킬 수 있음을 입증한다. 따라서 XAI 연구자는 모델 행동을 설명하는 “충실도”와 작업에 중요한 데이터 구조를 포착하는 “예측 유용성”을 명확히 구분해야 하며, λ(f)와 같은 진단 도구를 활용해 설명의 한계를 사전에 평가할 필요가 있다.

신뢰성만으로는 부족한 모델 설명의 한계

초록

상세 분석

댓글 및 학술 토론

의견 남기기