단어 사용이 행동을 말한다: 트위터 참여 예측

본 연구는 트위터 사용자의 단어 선택을 심리언어학적 카테고리(LIWC) 점수로 변환하고, 이 점수가 리플(reply) 및 리트윗(retweet) 행동과 어떤 관계가 있는지 분석한다. 상관관계 검증 후, 해당 점수를 특징으로 하는 머신러닝 모델을 구축해 사회적 참여를 예측했으며, 실제 트위터 데이터셋을 통해 합리적인 정확도를 달성하였다.

단어 사용이 행동을 말한다: 트위터 참여 예측

초록

본 연구는 트위터 사용자의 단어 선택을 심리언어학적 카테고리(LIWC) 점수로 변환하고, 이 점수가 리플(reply) 및 리트윗(retweet) 행동과 어떤 관계가 있는지 분석한다. 상관관계 검증 후, 해당 점수를 특징으로 하는 머신러닝 모델을 구축해 사회적 참여를 예측했으며, 실제 트위터 데이터셋을 통해 합리적인 정확도를 달성하였다.

상세 요약

이 논문은 소셜 미디어 상의 행동을 언어적 특성으로 설명하려는 시도 중에서도 특히 심리언어학적 사전(LIWC)을 활용한 점이 주목할 만하다. 저자들은 먼저 대규모 트위터 스트림을 수집하고, 각 트윗을 토큰화한 뒤 LIWC 사전의 71개 카테고리(예: 감정, 인지, 사회적 관계 등)에 매핑해 사용자별 평균 점수를 산출했다. 이러한 점수는 개인의 정서적 경향, 사고 방식, 사회적 지향성을 정량화한다는 점에서 기존의 단순 빈도 기반 피처와 차별화된다.

다음 단계에서는 두 가지 핵심 행동, 즉 다른 사용자의 트윗에 대한 ‘reply’와 ‘retweet’ 빈도를 종속 변수로 설정하고, 독립 변수로는 앞서 계산한 LIWC 점수들을 사용했다. 피어슨 상관분석 결과, ‘감정(positive/negative)’, ‘사회적 단어(social)’, ‘인간 관계(relationship)’ 등 몇몇 카테고리는 리플과 리트윗 모두에서 유의한 양의 상관을 보였으며, 반대로 ‘불확실성(uncertainty)’이나 ‘부정적 감정(negative emotion)’은 부정적 상관을 나타냈다.

예측 모델 구축에서는 로지스틱 회귀, 서포트 벡터 머신, 랜덤 포레스트 등 여러 알고리즘을 비교했으며, 특히 랜덤 포레스트가 가장 높은 정확도와 F1 점수를 기록했다. 교차 검증 결과, 전체 데이터의 약 70% 수준의 정확도를 달성했으며, 이는 단순 베이스라인(예: 무작위 혹은 빈도 기반) 대비 현저히 높은 수치다. 또한 피처 중요도 분석을 통해 ‘긍정적 감정’, ‘사회적 단어’, ‘인간 관계’가 모델에 가장 큰 기여를 함을 확인했다.

이러한 결과는 언어 사용이 사용자의 사회적 활동 의도와 행동을 반영한다는 가설을 실증적으로 뒷받침한다. 특히, 심리언어학적 카테고리를 피처로 활용함으로써 ‘왜 특정 사용자는 더 많이 답글을 달고 리트윗을 하는가’에 대한 해석 가능성을 제공한다는 점이 학문적·실무적 의의가 크다. 다만 데이터 수집 시 시간대, 트위터 API 제한, 언어적 다중성(예: 이모티콘, 해시태그) 등을 고려하지 않은 점은 향후 연구에서 보완이 필요하다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...