불균형 데이터에서 결정 트리의 소수 클래스 편향 재조명

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 결정 트리가 다수 클래스에 편향된다는 기존 인식을 비판하고, 순수도( purity) 기준으로 학습된 트리가 특정 조건하에서는 오히려 소수 클래스로 편향될 수 있음을 이론적으로 증명한다. 조건부 확률 분포와 임계값 설정을 고려하지 않은 기존 연구들의 오류를 짚고, 정규화(가지치기·깊이 제한)와 사후 보정(캘리브레이션) 방법이 편향을 완화한다는 실증적·이론적 근거를 제시한다. 이는 랜덤 포레스트와 같은 트리 기반 모델의 설계에도 중요한 시사점을 제공한다.

상세 분석

논문은 먼저 “다수 클래스 편향”이라는 널리 퍼진 믿음이 실제로는 조건부 확률 분포를 무시한 채 0.5라는 고정 임계값을 적용한 결과에서 비롯된 오류임을 지적한다. 소수 사건의 사전 확률이 매우 낮은 경우, 트리가 출력하는 확률 점수 자체는 정확하더라도 0.5 기준으로 분류하면 모든 샘플이 다수 클래스로 예측된다. 이는 모델 자체의 편향이 아니라 임계값 선택의 문제이다. 이어서 저자들은 두 가지 시나리오—(1) 결과가 예측 변수에 완전히 결정적인 경우와 (2) 결과가 예측 변수와 무관한 확률적 경우—를 통해 순수도 기준으로 학습된 결정 트리의 임계값 추정이 기대값으로 실제 임계값보다 크게(소수 클래스 영역을 축소) 혹은 작게(소수 클래스 영역을 확대) 될 수 있음을 수식적으로 증명한다. 특히, 베르누이(p)와 샘플 크기 n에 따라 기대 임계값 E

불균형 데이터에서 결정 트리의 소수 클래스 편향 재조명

초록

상세 분석

댓글 및 학술 토론

의견 남기기