아랍어 관용구 감성 사전 구축과 분석

본 논문은 현대 표준 아랍어와 구어체에서 사용되는 관용구·속담을 감성 사전(AIPSeLEX)으로 구축하고, 이를 활용한 자동 감성 분석 파이프라인을 제안한다. 사전은 전문가가 직접 수집·주석한 2,500여 개 문장을 포함하며, 긍정·부정 두 가지 극성을 부여한다. n‑gram 기반 후보 추출과 코사인 유사도·편집 거리 결합 방법으로 텍스트 내 관용구를 식별

아랍어 관용구 감성 사전 구축과 분석

초록

본 논문은 현대 표준 아랍어와 구어체에서 사용되는 관용구·속담을 감성 사전(AIPSeLEX)으로 구축하고, 이를 활용한 자동 감성 분석 파이프라인을 제안한다. 사전은 전문가가 직접 수집·주석한 2,500여 개 문장을 포함하며, 긍정·부정 두 가지 극성을 부여한다. n‑gram 기반 후보 추출과 코사인 유사도·편집 거리 결합 방법으로 텍스트 내 관용구를 식별하고, 실험을 통해 트위터·리뷰·포럼 등 다양한 도메인에서 높은 커버리지와 정확도를 입증한다.

상세 요약

본 연구는 아랍어와 같이 형태소가 풍부하고 어휘 변형이 빈번한 언어에서 관용구·속담이 감성 판단에 미치는 영향을 체계적으로 조사한다. 먼저, 기존 감성 사전이 주로 단어 수준에 초점을 맞추고 있어 다의적 표현을 제대로 처리하지 못한다는 한계를 지적한다. 특히 관용구는 구성 어휘의 사전적 의미와는 전혀 다른 함의를 가지며, 이를 그대로 단어 단위로 분해하면 긍정·부정 판별이 크게 왜곡된다. 이러한 문제를 해결하기 위해 저자들은 두 단계의 파이프라인을 설계하였다. 첫 번째 단계는 대규모 아랍어 코퍼스(트위터, 블로그, 전자상거래 리뷰 등)에서 n‑gram(2~5) 후보를 추출하고, 사전 구축 단계에서 수집한 관용구와의 문자열 유사도(코사인 유사도, 레벤슈타인 거리)로 필터링한다. 두 번째 단계에서는 전문가가 직접 문맥을 검토하여 긍정·부정 라벨을 부여하고, 다중 주석자 간의 Cohen’s κ를 0.84로 기록해 높은 일관성을 확보한다. 사전 규모는 총 2,538개의 관용구·속담이며, 이 중 1,312개는 현대 표준 아랍어, 1,226개는 이집트·레바논 등 주요 구어체를 포함한다. 실험에서는 관용구 인식 전후의 감성 분류 정확도를 비교했으며, 관용구를 사전으로 처리한 경우 평균 F1 점수가 0.78에서 0.91로 13%p 상승하였다. 또한, 도메인 별(관광, 전자상거래, TV 프로그램) 교차 검증을 통해 사전의 범용성을 검증했으며, 가장 낮은 도메인에서도 0.86 이상의 F1 점수를 유지했다. 이와 같이 AIPSeLEX는 아랍어 감성 분석 시스템에서 관용구 처리의 필요성을 실증적으로 입증하고, 기존 단어 기반 접근법에 비해 현저히 높은 성능 향상을 제공한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...