소셜 미디어로 보는 양극성 장애 언어 궤적: 대규모 장기 분석
초록
**
본 연구는 Reddit 사용자들의 자가 진단 게시물을 기반으로 양극성 장애(BD) 진단 시점과 전·후 언어 변화를 추적하였다. 진단 전후에 감정, 정신병리, 물질 사용, 입원·의료 기록 등 다양한 주제가 급격히 변하고, 진단 후에는 12개월 주기의 계절성 기분 변동이 반복적으로 나타났다. 이러한 언어 패턴은 전통적 정신건강 코호트 연구를 보완할 수 있는 새로운 디지털 바이오마커로 활용 가능성을 시사한다.
**
상세 분석
**
본 논문은 기존 양극성 장애 연구가 주로 횡단면 설계와 제한된 샘플 규모에 머물렀던 점을 극복하고, 소셜 미디어라는 방대한 자연언어 데이터를 활용해 장기적·대규모 분석을 수행한 점이 가장 큰 혁신이다.
-
진단 시점 추정 방법 – 사용자가 “I was diagnosed with bipolar”와 같은 문구를 올린 시점을 ‘진단 시점’으로 정의하고, 해당 시점을 중심으로 전후 2년(또는 그 이상)의 포스트를 수집하였다. 이를 위해 정규표현식 기반의 키워드 매칭과 인간 검증 과정을 결합해 높은 정확도의 자동 라벨링 파이프라인을 구축하였다.
-
대조군 설계 – 양극성 장애 사용자와 유사하게 ‘우울증’ 자체 진단자를 별도 그룹으로, 정신건강 관련 언급이 전혀 없는 일반 사용자를 또 다른 대조군으로 설정함으로써, 질병 특이적 언어 변화를 구분할 수 있었다.
-
언어 특성 추출 – LIWC, Empath, BERT‑based 임베딩 등 다중 언어 분석 도구를 이용해 감정 어휘(긍정·부정), 인지·사회·신체·의료 관련 토픽, 문장 구조(문장 길이, 연결어 사용) 등을 정량화하였다. 특히 ‘불안·우울·흥분’ 어휘 비중이 진단 전후에 급격히 변하고, ‘병원·입원·약물’ 언급이 진단 직후 급증하는 패턴을 확인하였다.
-
주기성 분석 – 시계열 분석(FFT, Lomb‑Scargle periodogram)을 적용해 진단 후 언어 변동에 약 12개월 주기의 강한 주기가 존재함을 발견하였다. 이는 계절성 정서 장애와 일치하며, 소셜 미디어 상에서 기분 변동이 실제 임상적 계절성에 반영될 수 있음을 시사한다.
-
통계적 검증 – 혼합 효과 모델을 사용해 개인별 차이를 통제하고, 그룹·시간·상호작용 효과를 검증하였다. 양극성 그룹은 우울증·일반 그룹에 비해 감정 어휘 변동 폭이 더 크고, 의료·물질 사용 관련 토픽이 지속적으로 높은 수준을 유지했다.
-
윤리·프라이버시 – 공개된 Reddit 데이터를 사용했지만, 사용자 식별 가능성을 최소화하기 위해 ID 해시화, 데이터 익명화, 연구 목적 외 사용 금지 등 엄격한 윤리 프로토콜을 적용하였다.
핵심 인사이트
- 소셜 미디어 언어는 양극성 장애의 발현과 진행을 실시간으로 포착할 수 있는 민감한 지표이며, 특히 진단 전후의 급격한 토픽 전환이 질병 발현을 예고한다.
- 12개월 주기의 언어 주기는 계절성 기분 변동을 반영하므로, 디지털 치료 개입 시기에 대한 시계열 기반 예측 모델 구축이 가능하다.
- 기존 임상 데이터와 결합하면, 조기 진단, 재발 위험 예측, 맞춤형 치료 모니터링 등에 활용할 수 있는 ‘디지털 바이오마커’ 체계 구축의 초석이 된다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기