연관 규칙 기반 텍스트 분류
초록
본 논문은 사전 라벨링된 문서 집합에 연관 규칙 마이닝을 적용해 의미 있는 단어 집합(패턴)을 추출하고, 이를 특징 벡터로 변환한 뒤 나이브 베이즈 분류기로 최종 클래스를 예측하는 방법을 제안한다. 실험을 통해 전통적인 TF‑IDF 혹은 단어 빈도 기반 특징 선택보다 높은 분류 정확도와 효율성을 확인하였다.
상세 분석
이 연구는 텍스트 분류 과정에서 특징 추출 단계에 연관 규칙(Association Rule) 마이닝을 도입한 점이 가장 큰 차별점이다. 기존 방법들은 주로 단어 빈도, TF‑IDF, 혹은 차원 축소 기법(LDA, PCA 등)을 사용해 고차원 특성 공간을 구성했지만, 이러한 접근은 의미적 연관성을 충분히 포착하지 못한다는 한계가 있다. 저자들은 먼저 사전 라벨링된 코퍼스를 ‘거래(transaction)’ 형태로 변환한다. 각 문서는 포함된 단어들의 집합으로 표현되며, 이때 불용어 제거와 어간 추출을 통해 잡음을 최소화한다. 이후 Apriori 혹은 FP‑Growth와 같은 전통적인 연관 규칙 알고리즘을 적용해 최소 지지도(min‑support)와 최소 신뢰도(min‑confidence)를 만족하는 빈번한 아이템셋과 규칙을 도출한다. 여기서 중요한 점은 ‘규칙의 전제(antecedent)’와 ‘결과(consequent)’가 모두 단어 집합이라는 점이다. 즉, 특정 단어 조합이 다른 단어 조합을 강하게 예측한다는 의미이며, 이는 텍스트 내 의미적 연관성을 직접적으로 반영한다.
도출된 규칙은 두 가지 방식으로 특징으로 활용된다. 첫째, 규칙의 전제와 결과를 각각 이진 특성으로 매핑해 문서‑특징 행렬을 만든다. 둘째, 규칙의 신뢰도 값을 가중치로 사용해 연속형 특성값을 부여한다. 이렇게 구성된 특징 벡터는 차원 수가 기존 단어 기반 방법에 비해 현저히 감소하면서도, 의미적 정보를 풍부하게 포함한다.
특징 추출 후 저자들은 전통적인 확률 기반 분류기인 나이브 베이즈(Naive Bayes)를 적용한다. 나이브 베이즈는 각 특징이 독립적이라는 가정 하에 클래스 사후 확률을 계산하는데, 연관 규칙 기반 특징은 실제로 서로 연관성을 내포하고 있음에도 불구하고, 실험 결과 이 가정이 크게 해를 끼치지 않으며 오히려 규칙 기반 특징이 제공하는 높은 구별력이 전체 성능을 끌어올린다.
실험에서는 20 Newsgroups, Reuters‑21578 등 공개 텍스트 데이터셋을 사용했으며, 최소 지지도와 신뢰도 파라미터를 다변화해 최적 조합을 탐색하였다. 결과는 전통적인 TF‑IDF + SVM, 단어 n‑gram + 나이브 베이즈와 비교했을 때, 평균 정확도가 3~5%p 상승하고, 특징 차원은 70% 이상 감소함을 보여준다. 또한, 연관 규칙 마이닝 단계가 비교적 짧은 시간 내에 수행될 수 있어 전체 파이프라인의 실행 효율성도 확보된다.
이 논문의 주요 기여는 (1) 텍스트 마이닝에 연관 규칙을 효과적으로 적용한 새로운 특징 추출 프레임워크, (2) 고차원 단어 공간을 의미 기반 저차원 공간으로 축소하면서도 분류 성능을 향상시킨 점, (3) 기존 분류기와의 결합을 통해 구현이 간단하면서도 실용적인 시스템을 제시한 점이다. 다만, 연관 규칙 마이닝은 최소 지지도와 신뢰도 설정에 민감하며, 매우 큰 코퍼스에서는 메모리와 계산량이 급증할 수 있다는 제한점이 있다. 향후 연구에서는 연관 규칙의 연속형 가중치를 학습 기반으로 최적화하거나, 딥러닝 기반 임베딩과 결합해 하이브리드 모델을 구축하는 방향이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기