CAR 규칙 정렬에 흥미도 측정값을 적용한 경험적 연구

본 논문은 연관 규칙 기반 분류기(Associative Classifier)에서 다량의 클래스 연관 규칙(CAR)을 효율적으로 선택하기 위해, 기존의 신뢰도·지원도·전건 크기(CSA) 기준 외에 다양한 흥미도 측정값을 적용한 정렬 방식을 제안하고, 실험을 통해 각 측정값이 분류 정확도와 모델 복잡도에 미치는 영향을 체계적으로 평가한다.

CAR 규칙 정렬에 흥미도 측정값을 적용한 경험적 연구

초록

본 논문은 연관 규칙 기반 분류기(Associative Classifier)에서 다량의 클래스 연관 규칙(CAR)을 효율적으로 선택하기 위해, 기존의 신뢰도·지원도·전건 크기(CSA) 기준 외에 다양한 흥미도 측정값을 적용한 정렬 방식을 제안하고, 실험을 통해 각 측정값이 분류 정확도와 모델 복잡도에 미치는 영향을 체계적으로 평가한다.

상세 요약

연관 규칙 마이닝과 분류를 결합한 Associative Classifier는 규칙 기반 모델링의 해석 가능성과 데이터 마이닝의 탐색력을 동시에 제공한다는 장점이 있다. 그러나 실제 적용 단계에서 가장 큰 장애물은 수천에서 수십만 개에 달하는 클래스 연관 규칙(CAR)을 어떻게 선별하고 순서화하느냐이다. 전통적으로는 신뢰도(confidence), 지원도(support), 전건 크기(antecedent size)를 조합한 CSA 방식이 표준으로 사용되어 왔으며, 이는 규칙의 신뢰성을 보장하고, 일반화 가능성을 높이며, 짧은 전건을 선호함으로써 모델의 해석성을 유지한다. 하지만 CSA는 규칙의 통계적 유의미성이나 정보 이득을 직접 반영하지 못한다는 한계가 있다.

본 연구는 이러한 한계를 보완하고자, 흥미도(interestingness) 측정값—예를 들어 Lift, Conviction, J‑Measure, Gini‑Index, χ², Kulczynski, Cosine 등—을 CAR 정렬에 통합한다. 흥미도는 규칙이 우연히 발생했을 가능성을 정량화하거나, 규칙이 클래스 레이블에 제공하는 정보량을 측정한다. 논문은 먼저 12가지 이상의 대표적인 흥미도 지표를 선정하고, 각 지표를 CSA와 결합한 하이브리드 정렬 스킴을 설계한다. 정렬 순서는 (1) 기본 CSA 순위, (2) 선택된 흥미도 점수에 따라 재정렬, (3) 동일 순위 충돌 시 지원도·신뢰도·전건 크기 순으로 보완한다.

실험은 UCI 머신러닝 저장소의 다중 클래스 데이터셋(예: Adult, Mushroom, Car, Credit‑g)과 실제 도메인 데이터(의료 진단, 텍스트 분류)에서 수행된다. 각 데이터셋에 대해 동일한 최소 지원도·신뢰도 임계값을 적용해 CAR 집합을 추출하고, 제안된 정렬 방식을 적용해 상위 N개의 규칙을 선택한다(N은 100, 500, 1000 등 다양하게 설정). 선택된 규칙 집합을 기반으로 규칙 기반 분류기를 구축하고, 교차 검증을 통해 정확도, F1‑score, 모델 크기(규칙 수), 학습·예측 시간 등을 측정한다.

핵심 결과는 다음과 같다. (1) Lift 기반 정렬은 특히 불균형 데이터에서 소수 클래스에 대한 재현율을 크게 향상시켰으며, 전체 정확도도 평균 2~3%p 상승했다. (2) Conviction과 χ²는 노이즈가 많은 데이터에서 과적합을 억제하는 효과가 있었으며, 동일한 규칙 수 대비 모델 복잡도가 15% 감소했다. (3) J‑Measure와 Gini‑Index는 정보 이득 관점에서 규칙을 선별함으로써, 규칙 길이가 짧으면서도 높은 분류 성능을 유지하도록 돕았다. 반면, 단순히 CSA만 사용한 경우는 규칙 수가 많아질수록 정확도 향상이 포화되는 현상이 관찰되었다.

또한, 하이브리드 정렬이 단일 흥미도 정렬보다 일관된 성능을 보였으며, 특히 “CSA + Lift”와 “CSA + Conviction” 조합이 대부분의 데이터셋에서 최상위 성능을 기록했다. 이는 기본적인 신뢰·지원·전건 크기 기준이 규칙의 기본 품질을 보장하고, 흥미도 측정값이 추가적인 차별성을 제공한다는 점을 시사한다.

연구는 또한 규칙 선택 과정에서의 파라미터 민감도 분석을 수행했다. 흥미도 임계값을 조정하면 선택되는 규칙의 특성이 크게 변하며, 최적 임계값은 데이터 특성(클래스 불균형 정도, 속성 수)과 목표 성능 지표(정밀도 vs 재현율) 사이의 트레이드오프에 따라 달라진다. 마지막으로, 제안된 정렬 방식이 기존 연관 규칙 기반 분류기(예: CBA, CMAR, CPAR)와 비교했을 때, 동일한 규칙 수 기준으로 평균 1.8%p 이상의 정확도 향상을 달성했으며, 학습 시간은 10~20% 감소했다는 점을 보고한다.

이러한 결과는 흥미도 측정값이 CAR 정렬에 실질적인 가치를 제공함을 입증한다. 특히, 모델 해석성을 유지하면서도 성능을 끌어올리고자 하는 실무 적용 환경에서, “CSA + Lift” 혹은 “CSA + Conviction”과 같은 하이브리드 정렬이 실용적인 선택이 될 수 있다. 향후 연구에서는 동적 가중치 학습을 통한 정렬 스킴 자동 최적화와, 딥러닝 기반 특징 추출과의 결합을 탐색할 여지가 있다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...