설명 가능한 AI를 위한 인과 발견 이중 인코딩 접근법
초록
본 논문은 범주형 변수를 포함한 혼합형 데이터에서 조건부 독립성 검정의 수치적 불안정을 해결하기 위해 두 가지 상보적인 인코딩(드롭‑첫 번째, 드롭‑마지막)을 동시에 적용하고, 각각의 인과 그래프를 다수결 방식으로 병합하는 이중‑인코딩 인과 발견 프레임워크를 제안한다. 타이타닉 데이터셋에 적용한 결과, 기존 SHAP·결정트리 기반 특성 중요도와 일관된 인과 구조를 도출함으로써 전역 설명 메커니즘으로서의 가능성을 입증한다.
상세 분석
이 연구는 기존 제약 기반 인과 발견 알고리즘(PC, FCI)이 연속형 변수에 최적화된 Fisher’s z‑test를 사용함에 따라 범주형 변수를 원-핫 인코딩할 경우 공분산 행렬이 특이(singular)해지는 문제를 정확히 짚어낸다. 특이 행렬은 역행렬 계산을 방해해 조건부 독립성 검정이 실패하고, 결과적으로 그래프 구조가 왜곡되거나 누락될 위험이 있다. 저자들은 이를 해결하기 위해 “드롭‑첫 번째”와 “드롭‑마지막”이라는 두 가지 상보적 인코딩 전략을 도입한다. 각각의 인코딩은 하나의 더미 변수를 의도적으로 제외함으로써 행렬의 랭크를 회복하고, 서로 다른 조건부 독립성 관계를 탐지할 수 있게 한다.
두 인코딩에 대해 동일한 FCI 알고리즘을 실행한 뒤, 다수결(majority voting) 방식을 적용해 그래프를 병합한다. 여기서 다수결은 “한 번이라도 나타난 에지”를 보존하고, 양쪽에서 동일한 방향이 제시될 경우 그 방향을 유지한다. 방향이 충돌하면 무방향(edge undirected)으로 처리한다. 이 절차는 인코딩 선택에 민감한 에지를 필터링하면서도, 실제 데이터에 존재하는 강건한 인과 관계를 보존한다는 장점을 가진다.
데이터 전처리 단계에서는 연속형 변수를 지도 기반 엔트로피 구간화(supervised entropy‑based binning)하여 이산화한다. 이는 비선형 관계를 포착하면서도 해석 가능성을 유지한다. 예를 들어, 연령을
댓글 및 학술 토론
Loading comments...
의견 남기기