위키백과 문화 다양성 데이터셋 전면 분석
초록
이 논문은 모든 위키백과 언어판에 대해 해당 언어와 사용 지역과 연관된 문화적 맥락을 나타내는 문서를 분류한 “Wikipedia Cultural Diversity” 데이터셋을 소개한다. 분류에 사용된 특징과 방법론을 상세히 설명하고, 데이터셋 활용 방안을 제시한다.
상세 분석
본 연구는 위키백과의 다언어 생태계에서 문화적 편향과 콘텐츠 격차를 정량화하기 위한 데이터셋 구축을 목표로 한다. 먼저 “문화적 맥락(Cultural Context, CC)”이라는 개념을 정의하고, 각 언어판에 대해 CC에 해당하는 문서를 자동으로 식별한다. 이를 위해 저자들은 5가지 주요 특징군을 설계했으며, 각각은 위키백과 내부 메타데이터와 외부 지리·언어 자원을 결합한다. 첫 번째 특징군은 위키백과 문서의 메타데이터(예: 위키링크, 카테고리, 위키데이터 속성)에서 언어·지역 정보를 추출한다. 두 번째는 위키데이터에 저장된 지리적 좌표와 행정구역 정보를 활용해 문서가 특정 국가·지역에 속하는지를 판단한다. 세 번째는 문서 본문에 등장하는 고유명사와 지명, 인물명 등을 명명 인식(NER) 기법으로 추출하고, 이를 사전 정의된 문화어휘와 매칭한다. 네 번째는 외부 언어 자원(예: ISO 639‑3 코드, Ethnologue 데이터베이스)과 연결해 언어와 지역 간의 상관관계를 보강한다. 마지막으로 위키백과 편집 이력과 사용자 프로필을 분석해 편집자들의 언어·지역 배경을 반영한다.
이러한 특징들을 기반으로 저자들은 다중 라벨 분류 모델을 훈련시켰으며, 라벨은 “언어 기반 CC”, “지역 기반 CC”, “다중 문화 CC” 등으로 구분된다. 모델 학습에는 라벨링된 샘플을 수작업으로 검증한 후, 교차 검증을 통해 정확도와 재현율을 최적화하였다. 실험 결과, 전체 언어판에 대해 평균 F1 점수 0.87을 달성했으며, 특히 소수 언어판에서 높은 재현율을 보였다. 이는 데이터 불균형 문제를 해결하기 위해 가중치 조정과 오버샘플링 기법을 적용한 덕분이다.
데이터셋 자체는 300개 언어판에 걸쳐 2천만 개 이상의 문서 메타데이터와 1천만 개 이상의 특징 벡터를 포함한다. 각 문서는 고유 식별자, 언어·지역 라벨, 특징값, 그리고 원본 위키백과 URL을 포함한다. 또한, 데이터셋은 공개 라이선스로 제공되어 연구자와 위키백과 커뮤니티가 자유롭게 활용할 수 있다. 저자들은 이 데이터셋을 활용해 콘텐츠 격차 분석, 문화적 편향 탐지, 다문화 협업 촉진 등 다양한 응용 시나리오를 제시한다. 특히, 디지털 인문학 분야에서 언어·문화 간 상호작용을 정량화하고, 정책 입안자가 언어 보존 및 지역 콘텐츠 확대 전략을 설계하는 데 유용한 근거 자료가 될 것으로 기대한다.
댓글 및 학술 토론
Loading comments...
의견 남기기