머신러닝 모델에 묻고 싶은 질문은? 대화형 XAI 챗봇을 통한 사용자 요구 탐색
본 연구는 타이타닉 생존 예측 모델을 설명하는 대화형 챗봇 dr_ant을 구축하고, 1000여 개의 사용자 대화를 수집·분석함으로써 인간 운영자가 실제로 필요로 하는 설명 질문 유형을 체계화한다. 결과는 “왜?”, “what‑if”, “데이터 탐색”, “특성 중요도” 등 7가지 주요 질문 카테고리로 정리되며, XAI 설계 시 사용자 중심 요구를 반영해야 함을 강조한다.
저자: Micha{l} Kuzba, Przemys{l}aw Biecek
본 논문은 “What Would You Ask the Machine Learning Model?”이라는 질문을 출발점으로, 인간 운영자가 머신러닝 모델에 대해 실제로 어떤 설명을 필요로 하는지를 탐구한다. 이를 위해 저자들은 ‘dr_ant’이라는 대화형 챗봇을 설계·구현하고, 타이타닉 생존 예측을 수행하는 랜덤 포레스트 모델을 대상으로 실험을 진행하였다.
시스템 아키텍처는 크게 여섯 부분으로 구성된다. 첫째, explainee(사용자)는 웹 기반 인터페이스(Vue.js)와 음성 인식·합성 기능을 통해 자유롭게 질문한다. 둘째, 인터페이스는 사용자 입력을 Dialogflow 기반 대화 에이전트에 전달하고, 응답을 시각·텍스트 형태로 렌더링한다. 셋째, 대화 에이전트는 NLU 모듈이 40개의 인텐트와 4개의 엔티티를 인식하도록 학습되었으며, 874개의 훈련 문장을 바탕으로 사용자 의도를 분류한다. 넷째, 블랙박스 모델은 R로 구현된 랜덤 포레스트이며, plumber 패키지를 이용해 REST API 형태로 제공된다. 다섯째, 설명기(iBreakDown, CeterisParibus)는 모델의 전역·국부 특성 기여도와 what‑if 시나리오를 시각화한다. 마지막으로, 챗봇 관리자는 실시간으로 대화 로그를 검토하고, 오분류된 인텐트를 재학습시켜 시스템을 지속적으로 개선한다.
실험 단계에서는 먼저 초기 대화 데이터를 수집해 NLU를 개선하고, 이후 2주간 Data Science 커뮤니티에 챗봇을 공개하였다. 필터링 과정을 거쳐 621개의 유효 대화(총 5,675개 질의)를 확보했으며, 대화 길이는 평균 9.14턴, 최대 83턴에 달했다. 질의는 자유 형식이었지만, 저자들은 의미적 유사성을 기준으로 수동 라벨링을 수행해 7개의 주요 질문 유형을 도출하였다.
1. **why – 일반 설명**: “왜 이렇게 예측했나요?”, “왜 내 생존 확률이 낮나요?” 등 모델의 예측 근거를 묻는 질문이 가장 많았다.
2. **what‑if – 가상 시나리오**: “만약 내가 나이가 더 많다면?” 등 입력 변수 변화를 통한 결과 변화를 탐색한다.
3. **what do you know about me – 사용자 프로파일 확인**: 시스템이 보유한 사용자 정보(입력값) 확인을 요구한다.
4. **EDA – 데이터 탐색**: 변수 분포, 데이터 불균형, 전체 통계 등 모델이 아닌 데이터 자체에 대한 질문이 다수였다.
5. **feature importance – 특성 중요도**: 특정 변수(성별, 나이 등)가 예측에 미치는 영향과 전역·국부 중요도를 묻는다.
6. **how to improve – 행동 지향**: “생존 확률을 높이려면 어떻게 해야 하나요?”와 같이 모델 결과를 개선하기 위한 조언을 구한다.
7. **class comparison – 클래스 비교**: 생존자와 사망자 간 특성 차이를 비교한다.
이러한 질문 분류는 기존 XAI 연구에서 제시된 explainee 유형(개발자, 도메인 전문가, 일반 사용자)과도 연계된다. 특히 ‘why’와 ‘what‑if’는 모델 중심 설명을, ‘EDA’와 ‘feature importance’는 데이터·도메인 중심 설명을, ‘how to improve’는 의사결정 지원을 강조한다.
논문의 주요 기여는 다음과 같다. 첫째, 대화형 XAI 시스템을 실제 사용자와의 인터랙션을 통해 검증함으로써 설명 요구를 실증적으로 파악했다. 둘째, 질문 유형을 체계화한 taxonomy를 제시해 향후 XAI 도구 설계 시 사용자 요구 매핑에 활용할 수 있다. 셋째, NLU와 대화 관리의 반복적 개선 과정을 통해 실시간 사용자 피드백을 모델에 반영하는 방법론을 보여준다.
하지만 몇 가지 한계도 존재한다. 데이터셋이 Titanic이라는 제한된 도메인에 국한돼 있어 일반화 가능성이 낮으며, 참여자가 주로 데이터 사이언스 커뮤니티에 속해 있어 비전문가 집단에 대한 인사이트는 부족하다. 또한 질문 라벨링이 수동으로 이루어졌고, 자동 클러스터링·주제 모델링을 통한 확장 가능성이 남아 있다. 향후 연구에서는 다양한 산업 분야·규모의 데이터, 비전문가 사용자, 그리고 설명 신뢰성·공정성 평가 메트릭을 포함한 종합적인 사용자 중심 XAI 프레임워크를 구축할 필요가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기