인공지능 기반 텍스트 분류 혁신
초록
본 논문은 기존 지도학습 방식이 대량의 라벨링된 문서를 필요로 하는 문제를 해결하고자, 단어 간 연관 규칙을 특징으로 추출하고 이를 나이브 베이즈와 유전 알고리즘으로 결합한 새로운 텍스트 분류 알고리즘을 제안한다. 실험 결과, 제안 시스템은 적은 학습 데이터에서도 높은 분류 정확도를 달성함을 보였다.
상세 분석
이 연구는 텍스트 분류에서 ‘단어’ 자체보다 ‘단어 간 연관 관계’를 특징으로 활용한다는 점에서 차별성을 가진다. 기존의 Bag‑of‑Words 혹은 TF‑IDF 기반 접근법은 각 단어의 빈도만을 고려해 문맥 정보를 충분히 반영하지 못한다는 한계가 있다. 저자는 연관 규칙 마이닝(Association Rule Mining) 기법을 적용해 사전 라벨링된 문서 집합에서 빈번히 동시에 등장하는 단어 쌍 혹은 다중 집합을 추출하고, 이를 이진 특징 벡터로 변환한다. 이러한 특징은 문서 간 의미적 유사성을 보다 정교하게 포착한다.
다음 단계에서는 전통적인 나이브 베이즈(Naïve Bayes) 분류기를 적용한다. 나이브 베이즈는 조건부 독립 가정을 전제로 하지만, 여기서는 연관 규칙을 통해 사전에 의존성을 일부 반영한 특징을 사용함으로써 독립 가정의 위배를 완화한다. 학습 과정에서 각 연관 규칙이 특정 카테고리와 얼마나 강하게 연관되는지를 확률적으로 모델링한다.
마지막으로, 유전 알고리즘(Genetic Algorithm)을 ‘최종 분류’ 단계에 도입한다. 구체적으로, 나이브 베이즈가 산출한 사후 확률을 초기 적합도(fitness)로 삼아, 특징 선택 및 가중치 조정을 위한 진화 연산(교배, 돌연변이)을 수행한다. 이를 통해 학습 데이터가 제한적인 상황에서도 최적에 가까운 특징 조합을 탐색할 수 있다.
실험 설계는 표준 텍스트 데이터셋(예: Reuters‑21578, 20 Newsgroups)을 부분적으로 샘플링해 학습 데이터 비율을 10 % 이하로 제한한 뒤, 제안 알고리즘과 기존 SVM, K‑NN, 전통 나이브 베이즈 등을 비교하였다. 결과는 정확도, 정밀도, 재현율 모두에서 제안 방법이 우수함을 보여준다. 특히 학습 데이터가 5 % 수준일 때도 기존 방법 대비 8~12 % 정도의 성능 향상이 관찰되었다.
한계점으로는 연관 규칙 추출 과정이 데이터 규모가 클 경우 연산 비용이 급증한다는 점과, 규칙의 길이가 길어질수록 희소성이 증가해 과적합 위험이 존재한다는 점을 들 수 있다. 또한, 유전 알고리즘의 파라미터(인구 크기, 세대 수 등)가 결과에 민감하게 작용하므로 자동 튜닝 메커니즘이 필요하다. 향후 연구에서는 연관 규칙의 차원 축소 기법과 딥러닝 기반 임베딩을 결합해 연산 효율성을 높이고, 멀티라벨 분류 및 스트리밍 데이터 환경에 대한 확장성을 검증할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기