트윗 가독성과 지역 교육 수준의 연관성 분석
초록
본 연구는 1,740만 개의 트윗에 수정된 Flesch 읽기 쉬움 점수를 적용해 전통적인 짧은 문자(SMS, 채팅)와 비교하였다. 해시태그 유무가 점수에 미치는 영향은 미미했으며, 미국 내 지리적 위치가 제공된 2% 사용자 데이터를 ZCTA 교육 통계와 결합해 평균 가독성 점수와 대학 졸업률 사이에 유의한 음의 상관관계를 발견했다.
상세 분석
이 논문은 디지털 언어학 분야에서 트위터 데이터를 활용한 가독성 측정 방법론을 제시한다. 기존 Flesch Reading Ease(FRE) 공식은 문장 길이와 음절 수를 기반으로 하지만, 트윗은 280자 제한과 비표준 언어(이모티콘, URL, 해시태그 등)로 구성되어 있다. 연구진은 문장을 ‘트윗 전체’를 하나의 문장으로 간주하고, URL과 사용자 멘션을 제거한 뒤, 남은 텍스트의 평균 음절 수와 단어 수를 이용해 수정 FRE 점수를 계산하였다. 이 과정에서 한국어와 영어 혼용, 약어, 이모티콘 등 특수 토큰을 어떻게 처리했는지에 대한 구체적 절차가 제시되어 있어 재현성이 높다.
데이터는 2013년부터 2014년까지 수집된 1억 7400만 개의 공개 트윗 중, 메타데이터에 지리적 좌표가 포함된 약 2%를 추출하였다. 이 좌표를 미국 인구조사국의 ZIP Code Tabulation Area(ZCTA) 경계와 매핑함으로써 각 ZCTA별 평균 가독성 점수를 산출했다. 동시에 미국 인구조사국의 American Community Survey(ACS)에서 제공하는 ‘25세 이상 인구 중 4년제 대학 졸업 비율’을 교육 지표로 사용하였다.
통계 분석은 Pearson 상관계수와 선형 회귀 모델을 이용했으며, 결과는 평균 가독성 점수와 대학 졸업률 사이에 r = –0.42( p < 0.001)의 중등도 음의 상관관계를 보였다. 즉, 대학 졸업률이 높은 지역일수록 트윗의 가독성 점수가 낮아, 더 쉬운 언어가 사용되는 경향을 나타낸다. 흥미롭게도 해시태그 포함 여부는 가독성 점수에 유의미한 차이를 만들지 않았으며, 이는 해시태그가 주로 단어 수를 늘리지만 음절 수 비율에 큰 영향을 주지 않기 때문으로 해석된다.
연구는 몇 가지 한계를 명시한다. 첫째, 지리적 데이터가 전체 사용자 중 2%에 불과해 표본 편향 가능성이 있다. 둘째, 수정 FRE 공식이 트윗의 비표준 언어 특성을 완전히 반영하지 못할 수 있다. 셋째, 인과관계보다는 상관관계에 초점을 두었기 때문에, 교육 수준이 트윗 내용에 미치는 직접적 메커니즘은 추가 연구가 필요하다.
이러한 제한에도 불구하고, 본 연구는 소셜 미디어 텍스트의 가독성을 정량화하고, 지역사회 교육 수준과 연결짓는 최초의 시도 중 하나로 평가된다. 향후 연구에서는 더 정교한 언어 모델(예: BERT 기반 난이도 예측)과 다양한 사회경제적 변수(소득, 인종 구성 등)를 통합해 다변량 분석을 수행함으로써, 디지털 커뮤니케이션이 사회적 불평등과 어떻게 교차하는지 심층적으로 탐구할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기