Bangla 정지어가 저자 구분에 미치는 영향: BARD10 벤치마크 연구
초록
본 논문은 방글라어 저자 구분을 위한 새로운 균형 코퍼스 BARD10을 제시하고, 정지어 제거가 전통적 머신러닝 모델과 딥러닝 모델에 미치는 영향을 체계적으로 분석한다. TF‑IDF + SVM이 가장 높은 매크로‑F1 점수를 기록했으며, 방글라어 정지어가 저자 스타일의 핵심 지표임을 밝혀냈다.
상세 분석
본 연구는 방글라어 저자 구분 분야에서 아직 충분히 탐구되지 않은 정지어(stop‑word)의 역할을 정량화하고자 한다. 먼저, 기존 베이스라인인 BAAD16 코퍼스와 비교 가능한 새로운 데이터셋 BARD10을 구축하였다. BARD10은 블로그와 의견문을 중심으로 10명의 현대 작가로부터 수집된 5,000여 개 문서를 포함하며, 장르가 보다 일상적이고 대화형이라는 점에서 BAAD16(문학·신문·에세이 등)과 차별화된다. 데이터 전처리는 모두 동일하게 수행했으며, 토큰화, 정규화, 그리고 두 가지 실험군(정지어 유지 vs. 정지어 제거)을 적용하였다.
모델 측면에서는 전통적인 TF‑IDF 기반 선형 SVM, 비선형 XGBoost, 다층 퍼셉트론(MLP)과 최신 방글라어 BERT(Bangla BERT)를 선택하였다. 각 모델은 동일한 하이퍼파라미터 탐색 과정을 거쳐 최적화했으며, 평가 지표는 매크로‑F1, 정확도, 그리고 클래스별 재현율을 포함한다. 실험 결과, TF‑IDF + SVM이 BAAD16에서 0.997, BARD10에서 0.921의 매크로‑F1 점수를 기록하며 가장 우수한 성능을 보였다. 반면, 방글라어 BERT는 각각 0.952와 0.873으로, 특히 BARD10에서는 5%p 정도 낮은 점수를 나타냈다.
정지어 제거 실험에서 눈에 띄는 차이는 BARD10에서만 나타났다. 정지어를 제거하면 모든 모델의 성능이 평균 3~7%p 감소했으며, 특히 SVM과 XGBoost는 정지어가 포함된 경우에 비해 재현율이 크게 떨어졌다. 이는 BARD10의 저자들이 일상적 대화에서 사용하는 고빈도 기능어(예: ‘그리고’, ‘하지만’, ‘그렇지만’)가 개인별 스타일을 전달하는 중요한 신호임을 시사한다. 반면, BAAD16에서는 정지어 제거가 성능에 미치는 영향이 미미했으며, 이는 문학·신문 등 공식적인 장르가 어휘 선택과 구문 구조에 더 큰 비중을 두기 때문이다.
오류 분석을 통해 BERT가 정지어를 억제하는 경향이 있음을 확인했다. BERT의 토큰 임베딩은 고빈도 단어를 ‘무시’하거나 낮은 가중치를 부여하는 경향이 있어, 정지어가 전달하는 미세한 스타일 신호가 손실된다. 반면, TF‑IDF는 단어 빈도 자체를 특징으로 사용하므로 정지어가 오히려 구분력을 강화한다. 또한, 짧은 텍스트(평균 150 단어 이하)에서는 고차원 선형 모델이 과적합 없이 안정적인 성능을 유지하는 반면, 딥러닝 모델은 데이터 양이 제한적일 때 일반화에 어려움을 겪는다.
이러한 결과는 두 가지 중요한 함의를 제공한다. 첫째, 방글라어 정지어는 저자 고유의 스타일을 드러내는 핵심 지표이며, 특히 웹 기반 일상 텍스트에서 그 효과가 두드러진다. 둘째, 데이터 규모와 장르 특성을 고려한 모델 선택이 필요하다. 짧고 비공식적인 텍스트에서는 전통적인 TF‑IDF + SVM이 여전히 강력한 베이스라인이며, 딥러닝 기반 트랜스포머는 정지어를 보존하도록 사전 처리나 어휘 설계가 보완될 때 비로소 경쟁력을 갖는다.
마지막으로, BARD10은 장기 문맥을 활용하거나 도메인 적응된 트랜스포머를 평가할 수 있는 재현 가능한 벤치마크로서, 향후 방글라어 저자 구분 연구에 중요한 기반이 될 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기