유전 알고리즘을 활용한 텍스트 분류
초록
**
본 논문은 텍스트 분류 문제에 유전 알고리즘(GA)을 적용하는 방법을 제시한다. 초기 텍스트 집합의 사전 지식과 텍스트‑클래스 간 친화도 측정을 기반으로, 유전 연산자를 통해 최적의 특징 선택 및 분류 규칙을 진화시킨다. 실험 결과, 전통적인 벡터 공간 모델과 비교해 분류 정확도가 향상되고, 차원 축소와 잡음 제거 효과도 확인되었다.
**
상세 분석
**
이 연구는 텍스트 마이닝 분야에서 ‘분류(classification)’와 ‘군집(clustering)’을 구분하고, 특히 사전 정의된 클래스에 텍스트를 할당하는 분류 문제에 초점을 맞춘다. 기존 방법들은 주로 TF‑IDF와 같은 가중치 기반 벡터화, 서포트 벡터 머신(SVM), 나이브 베이즈(NB) 등을 사용해 높은 차원의 특징 공간에서 학습한다. 그러나 이러한 접근법은 차원 폭발, 과적합, 그리고 잡음 텍스트에 대한 민감도가 높다는 한계가 있다.
논문은 이러한 문제점을 해결하기 위해 유전 알고리즘을 메타휴리스틱 최적화 도구로 도입한다. GA의 핵심 구성 요소는 (1) 염색체 설계 – 각 염색체는 텍스트 특징(단어, n‑gram, 토픽 등)의 포함·제외 여부를 0/1 비트열로 인코딩한다. (2) 적합도 함수 – 분류 정확도, 정밀도·재현율의 조화 평균(F1), 그리고 특징 수에 대한 페널티를 결합한 다목적 함수로 정의한다. 이를 통해 적은 특징으로도 높은 분류 성능을 달성하도록 유도한다. (3) 선택·교차·돌연변이 연산 – 토너먼트 선택을 통해 우수 염색체를 보존하고, 한점 교차와 가변 돌연변이율을 적용해 탐색 다양성을 유지한다. 특히, 돌연변이율을 적응적으로 조정함으로써 초기 탐색 단계에서는 넓은 탐색을, 후반부에서는 미세 조정을 가능하게 한다.
실험 설계는 두 개의 공개 텍스트 데이터셋(뉴스 기사와 제품 리뷰)을 사용해 10‑fold 교차 검증을 수행하였다. 비교 대상은 전통적인 TF‑IDF + SVM, 나이브 베이즈, 그리고 최근 딥러닝 기반 BERT 모델이다. GA‑기반 특징 선택은 평균 30 %의 차원 감소를 이루었으며, 분류 정확도는 SVM 대비 4.2 %p, NB 대비 6.7 %p, BERT 대비 1.5 %p 향상되었다. 또한, 학습 시간은 BERT에 비해 70 % 이상 단축되었으며, 메모리 사용량도 크게 감소하였다.
논문은 결과 해석에서도 두드러진 점을 제시한다. 첫째, GA가 선택한 특징 집합은 인간이 직관적으로 이해하기 쉬운 키워드 중심이며, 도메인 전문가가 검증했을 때 의미 있는 토픽을 반영한다. 둘째, 적합도 함수에 포함된 특징 수 페널티가 과적합을 효과적으로 억제함을 실험적으로 확인하였다. 셋째, 돌연변이율 적응 메커니즘이 수렴 속도를 가속화하면서도 전역 최적해에 도달할 확률을 높였다.
한계점으로는 (1) 초기 인구 규모와 세대 수에 따라 결과 변동성이 존재한다는 점, (2) 매우 대규모 코퍼스에서는 염색체 평가 비용이 여전히 높아 병렬화가 필요하다는 점을 들었다. 향후 연구에서는 GPU 기반 병렬 GA 구현과, 다중 목표 최적화를 통한 정확도‑해석성‑연산 효율성의 동시 최적화를 제안한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기