세르비아어 현대 비유 말뭉치 구축을 위한 자연어 처리 기법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 웹 텍스트 마이닝과 기계학습을 활용해 세르비아어 비유(시뮬) 데이터를 반자동으로 수집·정제하는 방법을 제시한다. 기존 Vuk Stefanović Karadžić의 333개 비유에 442개를 추가하고, 크라우드소싱을 통해 총 787개의 고유 비유를 확보하였다.

상세 분석

이 연구는 세르비아어 비유라는 문화적·언어학적 자원을 디지털화하기 위한 전형적인 파이프라인을 설계한다. 먼저, 크롤러를 이용해 세르비아어 웹 페이지(뉴스, 블로그, 포럼 등)를 대규모로 수집하고, UTF‑8 인코딩 정규화와 중복 제거 과정을 거쳐 원시 텍스트를 확보한다. 텍스트 전처리 단계에서는 형태소 분석기(예: Serbian Morphological Analyzer)를 적용해 토큰화·품사 태깅을 수행하고, ‘kao’, ‘ka’, ‘k’o’ 등 비유를 연결하는 접속어를 키워드로 삼아 후보 문장을 추출한다.

후보 문장은 두 가지 유형으로 구분된다. ① 전통적인 ‘~처럼’ 구조(명사 + 연결어 + 명사·형용사)와 ② 은유적 변형(동사 + 연결어 + 구)이다. 이들을 정규표현식 기반 패턴 매칭으로 초기에 필터링한 뒤, 남은 후보는 기계학습 분류기로 전달한다. 분류기 학습에는 500여 개의 라벨링된 예시(긍정·부정)를 사용했으며, SVM과 랜덤 포레스트를 비교한 결과, F1‑score 0.87을 기록한 랜덤 포레스트가 최종 모델로 채택되었다.

자동 추출 단계에서 발생하는 오탐을 보완하기 위해 크라우드소싱 플랫폼을 구축하였다. 참여자는 제시된 문장이 비유인지 여부를 판단하고, 필요 시 비유 구문을 교정·추가한다. 다중 검증(3인 이상 동시 평가)과 신뢰도 가중치를 적용해 최종 데이터베이스에 반영한다. 이 과정에서 442개의 새로운 비유가 검증·추가되었으며, 기존 333개와 합쳐 787개의 고유 비유가 확보되었다.

데이터 품질 평가는 두 차원에서 이루어졌다. 첫째, 자동 추출 단계의 정밀도·재현율을 교차 검증으로 측정했으며, 전체 파이프라인의 평균 정밀도는 0.91, 재현율은 0.84였다. 둘째, 크라우드소싱 결과의 일관성을 Cohen’s κ(0.78)로 확인해 인간 평가자의 신뢰성을 입증했다.

이 논문의 주요 기여는 다음과 같다. (1) 세르비아어 비유를 대규모로 자동 수집·정제하는 전처리·패턴·머신러닝 통합 파이프라인을 제시, (2) 기존 문헌에 비해 2.4배 규모의 현대 비유 말뭉치를 구축, (3) 크라우드소싱을 통한 품질 보증 메커니즘을 도입해 데이터 신뢰성을 높임. 또한, 구축된 말뭉치는 은유·비유 인식, 문화 연구, 교육 자료 개발 등 다양한 응용 분야에 활용될 수 있다. 향후 연구에서는 딥러닝 기반 시퀀스 모델을 적용해 복합적 은유 구조를 탐지하고, 다언어 비교 코퍼스를 구축함으로써 유럽 언어 간 비유 패턴의 변천을 분석하고자 한다.

세르비아어 현대 비유 말뭉치 구축을 위한 자연어 처리 기법

초록

상세 분석

댓글 및 학술 토론

의견 남기기