비표준어 기반 텍스트 분류
초록
본 연구는 크로아티아어 텍스트를 비표준어(숫자, 날짜, 약어 등)만을 특징으로 사용해 6개 장르로 분류한다. 390문서로 구성된 SKIPEZ 컬렉션을 세 가지 피처 표현(빈도, 통계값, 복합)으로 실험했으며, Naive Bayes·CN2·C4.5·kNN·Classification Tree·Random Forest 알고리즘을 적용했다. 비표준어 빈도 피처가 87% 정확도로 가장 높은 성능을 보였으며, 고굴절 언어에서 차원 축소와 전처리 비용 절감에 유리함을 확인했다.
상세 분석
이 논문은 고도로 굴절이 풍부한 크로아티아어와 같은 언어에서 전통적인 형태소 분석이나 어간 추출 없이도 효과적인 텍스트 분류가 가능한지를 검증한다. 저자들은 먼저 크로아티아어 비표준어(North Standard Words, NSW) 분류 체계를 정의하고, 숫자·날짜·통화·약어·축약어·기호 등 10여 종류의 비표준어를 식별한다. 이를 기반으로 390개의 문서를 6개의 장르(공식, 문학, 정보, 대중, 교육, 과학)로 라벨링한 SKIPEZ 컬렉션을 구축하였다.
피처 설계는 세 단계로 진행된다. 첫 번째는 각 문서에서 발견된 NSW 종류별 빈도를 직접 피처로 사용하는 ‘빈도 기반’ 표현이다. 두 번째는 동일 NSW 집합에 대해 평균, 분산, 표준편차, 변동계수 등 통계적 요약값을 추출한 ‘통계 기반’ 표현이다. 세 번째는 앞 두 집합을 결합한 ‘복합’ 표현으로, 피처 차원을 늘리면서도 정보 손실을 최소화한다.
분류 알고리즘으로는 확률 기반 Naive Bayes, 규칙 기반 CN2, 결정 트리 기반 C4.5와 Classification Tree, 거리 기반 kNN, 그리고 앙상블인 Random Forest를 선택하였다. 각 알고리즘은 10‑fold 교차 검증을 통해 정확도, 정밀도, 재현율, F1‑score를 측정하였다. 결과는 빈도 기반 피처가 평균 87%의 정확도로 가장 우수했으며, 통계 기반 피처는 78% 수준, 복합 피처는 84%에 머물렀다. 특히 Random Forest와 Naive Bayes가 빈도 기반에서 최고 성능을 기록했으며, kNN은 통계 기반에서 상대적으로 높은 재현율을 보였다.
이러한 결과는 비표준어가 텍스트의 장르적 특성을 강하게 반영한다는 가설을 뒷받침한다. 비표준어는 일반적인 어휘와 달리 문서의 형식·목적·작성자·출판 환경 등을 직접적으로 드러내는 신호이며, 고굴절 언어에서 형태소 분석의 오류 전파를 피하면서도 차원 축소 효과를 얻을 수 있다. 또한, 비표준어 피처는 전처리 비용이 낮아 실시간 혹은 대규모 텍스트 스트림 처리에 적합하다.
한계점으로는 데이터 규모가 비교적 작고, 크로아티아어 외 다른 고굴절 언어에 대한 일반화 검증이 부족하다는 점이다. 또한, 비표준어 사전 구축에 인적 자원이 많이 소요될 수 있어 자동화된 NSW 추출 방법이 필요하다. 향후 연구에서는 다국어 확장, 심층 신경망과의 하이브리드 모델링, 그리고 NSW와 전통적인 토큰 기반 피처의 결합 효과를 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기