소셜미디어에서 개인 자살위험을 예측하는 시간적 언어패턴 분석

초록

본 연구는 중국 위보(Weibo) 사용자의 글을 시간 순서대로 분석하여, 괄호, 조동사, 인칭대명사, 신체 관련 단어 등 특정 언어특성이 자살 위험을 예측하는 데 유의미함을 확인하였다. 시계열 특성을 변수로 활용한 분류 모델은 0.60 이상의 정확도를 달성했으며, 소셜미디어 데이터가 개인 수준의 자살 위험 조기 탐지에 활용될 수 있음을 입증한다.

상세 요약

이 논문은 기존의 정적 텍스트 기반 자살 위험 탐지 연구와 달리, 개인이 일정 기간에 걸쳐 작성한 글들의 시간적 변화를 정량화하는 접근을 시도한다. 데이터는 중국의 대표적인 마이크로블로그 플랫폼인 위보(Weibo)에서 자살 위험군과 일반군을 각각 30명씩 선정하여, 최소 6개월 이상 연속된 포스트를 수집한 뒤, LIWC(언어심리학 사전)를 기반으로 88개의 언어 카테고리를 추출하였다.

시간적 특성은 각 언어 카테고리의 일일 출현 비율을 시계열로 변환하고, 이를 7가지 통계적 지표(평균, 표준편차, 최대값, 최소값, 변화율, 자기상관, 주기성)로 요약하였다. 특히 괄호 사용량, 조동사(예: ‘할 것이다’, ‘할 수 있다’) 빈도, 1인칭·2인칭 대명사 사용, 그리고 신체 부위 언급 빈도가 자살 위험군에서 뚜렷한 패턴을 보였다. 예를 들어, 위험군은 시간에 따라 괄호 사용이 급격히 감소하고, 조동사의 사용이 증가하는 경향을 보였으며, 이는 감정 억제와 미래에 대한 불확실성 표현으로 해석될 수 있다.

이러한 시계열 특징들을 입력 변수로 사용해 로지스틱 회귀, 서포트 벡터 머신(SVM), 랜덤 포레스트 등 3가지 분류 알고리즘을 학습시켰다. 교차 검증 결과, 랜덤 포레스트가 가장 높은 정확도(0.62)를 기록했으며, 정밀도·재현율 모두 0.60 이상으로 실용적인 수준을 보였다. 모델의 변수 중요도 분석에서는 앞서 언급한 네 가지 언어 카테고리가 상위에 위치했으며, 특히 ‘조동사’와 ‘신체 단어’가 위험군을 구분하는 핵심 지표로 작용하였다.

연구의 강점은 (1) 개인별 장기 데이터를 활용해 동적인 언어 변화를 포착한 점, (2) 전통적인 텍스트 마이닝 기법에 시계열 통계량을 결합함으로써 예측 성능을 향상시킨 점이다. 그러나 샘플 규모가 작고, 위보 사용자에 국한된 문화·언어적 특성이 결과 일반화에 제한을 둔다는 점, 그리고 라벨링이 자가보고식 설문에 의존해 객관성이 다소 낮을 수 있다는 한계도 명시된다. 향후 연구에서는 다국어·다문화 데이터셋 확대와 딥러닝 기반 시계열 모델(LSTM, Transformer) 적용을 통해 정확도를 높이고, 실시간 위험 감지 시스템으로의 전환 가능성을 탐색해야 할 것이다.

초록

상세 요약

📜 논문 원문 (영문)