인과 개념 기반 모델 설명 프레임워크
초록
본 논문은 비해석적 머신러닝 모델에 대한 설명을 개념 수준에서 제공하기 위한 인과적 프레임워크를 제안한다. 개념 개입의 충분성 확률을 계산함으로써 지역적·전역적 설명을 생성하고, CelebA 데이터셋을 이용한 분류기 사례를 통해 이해가능성과 충실성을 검증한다.
상세 분석
이 연구는 XAI 분야에서 ‘이해가능성’과 ‘모델 충실도’라는 두 축을 동시에 만족시키는 새로운 접근법을 제시한다. 기존의 사후 설명 기법은 주로 입력 특성의 중요도를 시각화하거나, 샘플 주변의 선형 근사를 통해 지역 설명을 제공했지만, 개념 수준에서의 인과 관계를 명시적으로 다루지는 못했다. 저자들은 이를 보완하기 위해 ‘개념(intervention)’이라는 추상화된 변수 집합을 정의하고, 각 개념을 모델 내부 표현과 연결시킨다. 핵심은 개념 개입이 모델 출력에 미치는 영향을 확률적 충분성(probability of sufficiency)이라는 지표로 정량화하는데 있다. 충분성 확률은 “특정 개념이 존재할 때 모델이 목표 클래스를 예측할 확률”을 의미하며, 이를 베이지안 네트워크 형태의 인과 그래프에 매핑한다.
프레임워크는 크게 네 단계로 구성된다. 첫째, 도메인 전문가가 사전에 정의한 개념 어휘집을 바탕으로 이미지나 텍스트 등 원시 데이터를 고수준 개념으로 변환한다. 둘째, 변환된 개념을 모델 내부의 중간 레이어와 정렬(alignment)시키기 위해 선형 탐색이나 교차 엔트로피 기반 학습을 수행한다. 셋째, 개념 개입을 시뮬레이션하여 충분성 확률을 추정한다. 여기서는 개념을 ‘켜기/끄기’ 형태로 조작하고, 다수의 샘플에 대해 모델 출력을 재평가함으로써 몬테카를로 추정을 적용한다. 넷째, 추정된 확률을 기반으로 지역 설명(특정 입력에 대한 개념 영향도)과 전역 설명(전체 데이터셋에 대한 개념 중요도)을 시각화한다.
특히 저자들은 ‘인과적 해석’이라는 전제 하에, 개념 간 상호작용을 무시하고 독립적인 개입을 가정한다는 제한점을 명시한다. 이는 실제 도메인에서는 개념이 서로 얽혀 있을 가능성이 높아, 프레임워크 적용 시 사전 인과 구조를 충분히 검증해야 함을 의미한다. 또한 충분성 확률은 모델이 학습한 분포와 개념 정의 사이의 정합성에 크게 의존하므로, 개념 어휘집의 품질이 전체 설명의 신뢰성을 좌우한다.
실험에서는 CelebA 데이터셋의 얼굴 속성(예: ‘안경 착용’, ‘수염’, ‘미소’)을 개념으로 선정하고, ResNet 기반 분류기에 적용하였다. 개념 개입 결과, ‘안경 착용’ 개념을 활성화했을 때 특정 인물의 성별 예측 확률이 유의미하게 변하는 것을 확인함으로써, 모델이 속성 간 인과적 연관성을 학습했음을 시사한다. 또한 전역 설명을 통해 가장 영향력 있는 개념들을 도출하고, 이를 도메인 전문가가 검증함으로써 이해가능성을 실증하였다.
결론적으로, 이 프레임워크는 모델 내부의 복잡한 비선형 관계를 고수준 개념으로 추상화하고, 인과적 관점에서 충분성 확률을 이용해 설명을 제공함으로써 XAI의 두 핵심 목표를 동시에 달성한다는 점에서 의의가 크다. 다만 개념 정의의 주관성, 개념 간 인과 의존성 무시, 그리고 충분성 확률 추정에 필요한 대규모 샘플링 비용 등 실용적 한계도 존재한다. 향후 연구에서는 개념 간 인과 그래프를 명시적으로 학습하거나, 베이지안 최적화를 통해 샘플 효율성을 높이는 방안이 제시될 수 있다.