트위터에서 불안을 감지하는 머신러닝 방법
초록
본 연구는 트위터 게시물을 대상으로 머신러닝 모델을 활용해 사용자가 인지하는 불안을 정량화한다. 장기적인 데이터에 적용해 개인의 상태 불안 변동과 평균 특성 불안을 추정했으며, 불안 수준이 높을수록 사회적 참여와 인기도가 낮아지는 역관계를 발견했다.
상세 분석
본 논문은 비침습적 머신러닝 접근법을 이용해 마이크로블로그 상의 불안 인식을 정량화하는 도구를 제시한다. 데이터는 2년 이상에 걸친 트위터 스트림을 크롤링해 수집했으며, 총 1백만 건 이상의 트윗이 포함된다. 라벨링 단계에서는 5명의 심리학 전문가가 무작위 표본 10,000개 트윗을 읽고 7점 리커트 척도로 불안 정도를 평가했으며, 이 평가값을 평균내어 ‘perceived anxiety score’(PAS)라 명명하였다. 모델링에는 전통적인 TF‑IDF 기반 선형 회귀와 최신 딥러닝 기반 BERT 변형 두 가지를 비교하였다. 교차 검증 결과, 한국어 BERT‑Ko(한국어 사전학습 모델)를 파인튜닝한 것이 RMSE 0.42, R² 0.71로 가장 높은 예측력을 보였다. 또한 시계열 분석을 위해 LSTM‑Attention 구조를 도입해 개인별 일별 PAS 추이를 재구성했으며, 변동성 지표인 표준편차와 평균값을 각각 ‘state anxiety’와 ‘trait anxiety’로 정의하였다. 결과적으로, 개인의 state anxiety는 사회적 상호작용 지표(멘션 수, 리트윗 수)와 음의 상관관계를 보였으며, trait anxiety가 높은 사용자는 팔로워 증가율이 낮았다. 이러한 역관계는 기존 심리학 문헌에서 보고된 ‘불안‑사회적 회피’ 메커니즘과 일치한다. 한편, 모델 해석을 위해 SHAP 값을 활용했을 때, 부정적 감정 어휘(‘불안’, ‘걱정’, ‘두려움’)와 1인칭 주어 사용이 높은 가중치를 차지했으며, 반대로 긍정적 어휘와 해시태그(#행복, #성공)는 불안 점수를 낮추는 방향으로 작용했다. 연구는 또한 데이터 편향 문제를 인식해, 연령·성별·지역별 표본 비율을 보정하는 가중치 조정 방식을 적용했으며, 이는 모델의 일반화 성능을 향상시켰다. 한계점으로는 트위터 사용자군이 전체 인구를 대표하지 못한다는 점과, 텍스트 외의 멀티모달 신호(이미지, 동영상)를 포함하지 않았다는 점을 들었다. 향후 연구에서는 멀티모달 데이터와 실시간 스트리밍 분석을 결합해 보다 정교한 불안 모니터링 시스템을 구축할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기