텍스트 분류를 위한 하이브리드 학습 알고리즘
초록
본 논문은 기존 지도학습 기반 텍스트 분류기가 다량의 학습 문서를 필요로 하는 문제를 해결하고자, 단어 간 연관 규칙을 특징으로 추출하고 나이브 베이즈와 유전 알고리즘을 결합한 새로운 하이브리드 분류기를 제안한다. 실험 결과, 제안 모델은 적은 학습 데이터에서도 기존 방법보다 높은 정확도를 달성한다.
상세 분석
이 논문은 텍스트 분류 문제를 해결하기 위해 두 가지 핵심 아이디어를 도입한다. 첫 번째는 전통적인 ‘단어 빈도’ 기반 피처 대신, 사전 라벨이 부착된 문서 집합으로부터 연관 규칙(association rules)을 추출하여 ‘단어 관계’ 피처를 구성한다는 점이다. 연관 규칙은 Apriori와 같은 빈발 항목집합 탐색 알고리즘을 활용해 일정 최소 지지도와 신뢰도를 만족하는 단어 쌍 혹은 다중어 집합을 찾아낸다. 이렇게 도출된 규칙은 문서 내에 해당 규칙이 나타나는지를 0‑1 값으로 표현함으로써, 희소하고 고차원적인 전통적인 Bag‑of‑Words 모델보다 더 압축된 특징 공간을 제공한다. 특히, 규칙 기반 피처는 의미적 연관성을 직접 반영하므로, 동일한 의미를 갖는 다른 어휘가 사용된 문서라도 동일 규칙에 의해 동일한 피처를 활성화시켜 일반화 능력을 향상시킨다.
두 번째 아이디어는 이러한 규칙 기반 피처에 나이브 베이즈(Naive Bayes) 분류기를 적용한 뒤, 최종 라벨 결정을 위해 유전 알고리즘(Genetic Algorithm, GA)을 도입한다는 점이다. 나이브 베이즈는 조건부 독립 가정을 이용해 각 클래스별 사후 확률을 빠르게 계산하지만, 피처 간 상관관계를 무시한다는 한계가 있다. 이를 보완하기 위해 GA는 피처 가중치와 클래스 결정 규칙을 유전 연산(선택, 교배, 돌연변이)으로 최적화한다. 구체적으로, 각 개체는 피처 가중치 벡터와 라벨 매핑 함수를 유전자로 표현하고, 적합도 함수는 교차 검증을 통해 얻은 분류 정확도와 모델 복잡도(가중치 L1 정규화)를 결합한다. 이렇게 하면 나이브 베이즈가 제공하는 확률적 근거 위에, 데이터에 맞게 조정된 가중치가 추가되어 보다 정교한 결정 경계를 형성한다.
실험 설계는 공개된 뉴스 기사 데이터셋과 학술 논문 초록 데이터셋을 사용했으며, 학습 문서 수를 10 %부터 100 %까지 단계적으로 늘려가며 정확도, 정밀도, 재현율을 비교하였다. 결과는 특히 학습 샘플이 30 % 이하일 때, 기존 SVM·k‑NN·전통 나이브 베이즈 대비 5‑12 % 정도의 정확도 향상을 보였으며, 학습 데이터가 충분할 경우에도 경쟁력 있는 성능을 유지한다는 점을 확인했다. 또한, 피처 수가 기존 단어 기반 모델 대비 70 % 이상 감소했음에도 불구하고, 연산 시간은 평균 30 % 가량 단축되었다.
이러한 접근은 (1) 데이터 라벨링 비용이 높은 도메인에서 적은 학습 샘플만으로도 실용적인 분류 모델을 구축할 수 있게 하고, (2) 연관 규칙 기반 피처가 의미적 정보를 효과적으로 포착함으로써 텍스트의 다형성을 다루는 데 유리하다는 점에서 학술적·실무적 의의를 가진다. 다만, 연관 규칙 추출 단계에서 최소 지지도와 신뢰도 파라미터 설정이 결과에 큰 영향을 미치며, 대규모 코퍼스에서는 규칙 수가 급증해 메모리와 시간 비용이 증가할 수 있다는 한계도 존재한다. 향후 연구에서는 규칙 선택을 위한 차원 축소 기법과, 딥러닝 기반 임베딩과의 하이브리드 확장을 검토할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기