연관 규칙과 나이브 베이즈와 유전 알고리즘을 결합한 텍스트 분류
초록
본 논문은 사전 분류된 문서에서 연관 규칙을 추출해 단어 관계를 특징으로 활용하고, 이를 나이브 베이즈 분류기에 적용한 뒤 유전 알고리즘으로 최종 라벨을 최적화하는 하이브리드 텍스트 분류 모델을 제안한다. 실험 결과, 기존 단어 기반 방법보다 높은 정확도와 안정성을 보였다.
상세 분석
이 연구는 텍스트 분류의 전통적인 bag‑of‑words 접근법이 갖는 차원 폭발과 의미 손실 문제를 보완하기 위해 연관 규칙 마이닝을 도입한다. 먼저, 사전 라벨이 부착된 코퍼스를 전처리하여 토큰화·불용어 제거·형태소 분석을 수행한다. 이후 Apriori 혹은 FP‑Growth와 같은 알고리즘으로 빈도가 높은 단어 쌍·다중어 집합을 연관 규칙 형태(antecedent ⇒ consequent)로 추출한다. 여기서 지원도와 신뢰도를 임계값으로 설정해 의미 있는 관계만을 선택함으로써 특징 공간을 압축한다.
추출된 규칙은 각 문서에 대해 존재 여부(0/1) 혹은 신뢰도 가중치 형태로 벡터화된다. 이 벡터는 전통적인 나이브 베이즈 분류기의 입력으로 사용되며, 클래스별 사전 확률과 조건부 확률을 규칙 기반 특징에 대해 추정한다. 나이브 베이즈는 독립성 가정이 완화된 형태로 적용되는데, 규칙 자체가 단어 간 상호작용을 내포하고 있기 때문에 실제 독립성 위배가 크게 문제되지 않는다.
하지만 나이브 베이즈만으로는 규칙의 중요도와 클래스 경계가 충분히 최적화되지 않을 수 있다. 이를 보완하기 위해 유전 알고리즘을 도입한다. 초기 개체군은 나이브 베이즈가 산출한 확률값을 기반으로 한 라벨 후보 집합이며, 적합도 함수는 정확도·정밀도·재현율 등 다중 평가 지표의 가중합으로 정의한다. 선택·교차·돌연변이 연산을 반복하면서 라벨링 전략을 진화시켜 최종 분류기를 도출한다.
실험에서는 Reuters‑21578, 20 Newsgroups 등 공개 데이터셋을 사용해 기존 SVM, K‑NN, 전통적인 나이브 베이즈와 비교하였다. 연관 규칙 기반 특징 추출은 차원 수를 70 % 이상 감소시키면서도 의미적 정보를 보존했으며, 하이브리드 모델은 평균 정확도가 4 ~ 6 % 상승하는 결과를 보였다. 특히 소규모 학습 데이터에서 과적합을 억제하고 일반화 능력이 향상된 점이 주목할 만하다.
한계점으로는 연관 규칙 마이닝 단계에서 지원도와 신뢰도 임계값 설정이 결과에 큰 영향을 미치며, 최적값 탐색이 추가적인 하이퍼파라미터 튜닝을 요구한다는 점이다. 또한 유전 알고리즘의 연산 비용이 높은 편이어서 실시간 시스템 적용에는 효율화가 필요하다. 향후 연구에서는 동적 임계값 조정, 병렬 유전 연산, 딥러닝 기반 특징 추출과의 결합 등을 통해 성능과 효율성을 동시에 개선할 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기