X TREPAN 인공신경망 이해 가능한 다중 클래스 회귀 결정트리 추출
초록
본 논문은 기존 TREPAN 알고리즘을 개선하여 인공신경망으로부터 이해하기 쉬운 결정트리를 추출하는 X‑TREPAN을 제안한다. Single‑test TREPAN과 C4.5를 결합해 다중 클래스 회귀 문제에 적용했으며, 실제 데이터베이스를 이용한 실험에서 분류 정확도와 모델 가독성을 비교 평가한다. 통계적 검증을 통해 제안 방법의 유의미성을 확인하고, 일반화 피드포워드 네트워크에도 적용 가능함을 입증한다.
상세 분석
X‑TREPAN은 기존 TREPAN이 갖는 몇 가지 한계를 보완하기 위해 설계되었다. 첫째, TREPAN은 주로 이진 분류에 초점을 맞추었으나, 본 연구에서는 Single‑test TREPAN을 도입해 하나의 테스트 노드에서 다중 클래스를 동시에 판단하도록 확장하였다. 이를 위해 각 노드에서 후보 속성의 정보이득을 C4.5와 동일한 기준으로 평가하고, 가장 높은 이득을 보이는 속성을 선택한다. 둘째, 다중 클래스 회귀 문제에 대한 지원을 추가하였다. 회귀 출력값을 연속 구간으로 discretize한 뒤, 각 구간을 클래스 레이블처럼 취급해 트리를 성장시키는 방식을 채택했으며, 이를 통해 연속형 목표 변수도 직관적인 트리 구조로 설명할 수 있다. 셋째, 모델의 가독성을 높이기 위해 트리 축소(pruning) 단계에서 통계적 유의성을 검증한다. χ² 검정 및 t‑검정을 활용해 분할이 실제로 예측 성능에 기여하는지를 판단하고, 의미가 낮은 분할은 제거한다. 실험에서는 의료, 금융, 제조 등 다양한 도메인의 10개 데이터셋을 사용했으며, 각 데이터셋에 대해 원본 신경망, 기존 TREPAN, C4.5, 그리고 X‑TREPAN 네 모델을 비교하였다. 정확도 측면에서는 X‑TREPAN이 원본 신경망에 근접한 성능을 보였고, C4.5에 비해 평균 4~7% 높은 정확도를 기록했다. 가독성 평가에서는 트리 깊이와 노드 수가 C4.5보다 30% 이상 감소했으며, 전문가 설문을 통해 이해도 점수가 유의미하게 상승한 것으로 나타났다. 통계적 검증 결과, 정확도 차이는 95% 신뢰구간 내에서 유의미했으며, 가독성 향상 역시 p<0.01 수준으로 의미가 있었다. 마지막으로, 일반화 피드포워드 네트워크(다층 퍼셉트론)에도 동일한 추출 과정을 적용했을 때, 복잡한 비선형 관계를 유지하면서도 해석 가능한 트리를 얻을 수 있음을 보였다. 이러한 결과는 X‑TREPAN이 블랙박스 신경망을 투명하게 만들고, 실무 적용 시 의사결정 근거를 제공하는 데 유용함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기