다국어 다문화 다이벤트 온라인 양극화 벤치마크 POLAR
초록
POLAR는 22개 언어·다양한 문화·다중 사건을 아우르는 110 K 이상의 온라인 텍스트를 수집·주석한 대규모 데이터셋이다. 양극화는 “검출”, “유형”, “표현”이라는 세 축으로 라벨링했으며, 각 언어·문화에 맞춘 주석 프로토콜을 적용했다. 소형 사전학습 모델 6개를 파인튜닝하고, 여러 공개·폐쇄형 대형 언어 모델을 제로·소수샷으로 평가한 결과, 이진 검출은 비교적 높은 정확도를 보였지만 유형·표현 예측은 현저히 낮은 성능을 나타냈다. 이는 양극화가 언어·문화·맥락에 따라 고도로 복합적임을 시사한다.
상세 분석
본 논문은 온라인 양극화 연구의 근본적인 한계—단일 언어·문화·사건 중심—를 극복하고자 다국어·다문화·다이벤트 데이터셋 POLAR를 구축하였다. 데이터는 X, Facebook, Reddit, Bluesky, Threads, YouTube 댓글, 위보·지후 등 10여 개 플랫폼에서 키워드 기반 자동 수집 후 중복·길이 필터링, 익명화 과정을 거쳤으며, 저자들은 언어별 전처리 파이프라인을 설계해 저자식별 정보를 제거하였다. 특히 저자들은 기존 독성·혐오 데이터셋(예: ToxicN, COLD 등)에서 일부 언어 데이터를 재활용해 데이터 다양성을 확보하였다.
주석 단계에서는 ‘검출(PolarDetect)’, ‘유형(PolarType)’, ‘표현(PolarManifest)’ 세 축을 정의하고, 각 축에 대해 상세한 라벨링 가이드를 다국어로 번역·문화 적응시켰다. 검출은 이진 라벨, 유형은 정치·인종·종교·성·기타 5가지, 표현은 스테레오타입·비방·비인간화·극단적 언어·공감 결여·부정(Invalidation) 등 6가지 전술을 복수 라벨링한다.
주석 품질은 Fleiss’ κ로 평가했으며, 언어마다 0.10~0.83 사이의 변동을 보였다. 독일어는 Krippendorff’s α를, 파키스탄어는 Cohen’s κ와 동일한 값을 보고했으며, 전반적으로 고리소스 언어보다 저리소스 언어에서 합의도가 낮았다. 특히 이탈리아어·러시아어·버마어·폴란드어는 표현 라벨이 부재했다는 점이 데이터 불균형을 드러낸다.
실험에서는 6개의 소형 사전학습 모델(예: mBERT, XLM‑R 등)을 파인튜닝해 각 과제별 F1 점수를 측정했고, 대형 언어 모델(예: GPT‑3.5, LLaMA‑2, Claude 등)을 제로·소수샷 프롬프트로 평가했다. 결과는 이진 검출에서 80% 이상 F1를 달성했으나, 유형 분류와 특히 표현 식별에서는 40~55% 수준으로 급격히 떨어졌다. 이는 모델이 텍스트의 표면적 극성은 포착하지만, 문화·맥락에 깊이 얽힌 레토릭 전술을 이해하는 데 한계가 있음을 의미한다. 또한, 언어별 성능 격차가 뚜렷해 저리소스 언어에서 LLM조차도 제로샷 성능이 낮았다.
이러한 발견은 양극화가 단순한 감성·극성 문제가 아니라, 사회·정치·문화적 배경을 반영한 복합적 현상임을 재확인한다. 따라서 향후 연구는 (1) 문화·언어 특화 프롬프트 설계, (2) 다중 라벨 학습을 위한 손실 함수 개선, (3) 저리소스 언어를 위한 데이터 증강·전이학습 전략이 필요하다. 논문은 또한 모든 데이터·코드·주석 가이드를 공개해 커뮤니티 기반 연구와 정책적 대응을 촉진하고자 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기