인과관계 기반 의사결정 트리로 불안정한 상관관계 해소
초록
본 논문은 소프트웨어 공학에서 널리 쓰이는 결정트리 모델이 상관관계 기반 분할 기준으로 인해 불안정성을 보이는 문제를 지적한다. 저자는 조건부 엔트로피와 혼동 변수 제거를 활용한 인과관계 인식 분할 기준을 제안하고, 120여 개의 다목적 최적화 과제에 대해 인간 판단과 기존 상관관계 기반 트리(EZR)의 안정성을 비교한다. 실험 결과, 인과관계 기반 트리는 모델 변동성을 크게 감소시키면서 예측·최적화 성능은 유지됨을 보여준다.
상세 분석
이 연구는 소프트웨어 분석에서 설명 가능성을 제공하는 상징적 모델, 특히 결정트리의 근본적인 한계를 짚는다. 기존 EZR 프레임워크가 사용하는 분산 감소·정보이득 같은 분할 기준은 순수히 통계적 연관성을 측정할 뿐, X→Y 형태의 인과관계를 구분하지 못한다. 이러한 연관-인과 혼동은 데이터 샘플링 변동이나 전처리 미세 조정에 따라 트리 구조가 급격히 달라지는 ‘불안정성’으로 나타난다. 저자는 두 가지 핵심 개선점을 제시한다. 첫째, 각 후보 특성 X에 대해 목표 변수 Y의 조건부 엔트로피 H(Y|X)를 계산하고, 이를 전체 엔트로피 H(Y)로 정규화한 CausalScore = H(Y|X)/H(Y) 를 최소화하는 분할 기준을 도입한다. 이는 정보이득을 최대화하는 전통적 방법과 수학적으로 유사하지만, 낮은 조건부 엔트로피가 X가 Y를 설명하는 인과적 가능성을 시사한다는 인과론적 해석을 부여한다. 둘째, 잠재적 혼동 변수 Z를 사전 가지치기(pre‑pruning) 단계에서 제거한다. 구체적으로, X와 Y 사이의 상호정보 I(X;Y)를 측정하고, 다른 변수 Z에 조건부로 평가한 I(X;Y|Z)가 사전 정의된 임계값 이하이면 X를 혼동 변수로 간주한다. 이렇게 하면 Z→
댓글 및 학술 토론
Loading comments...
의견 남기기