게이 트위터 사용자의 질병·질환 특성 분석
초록
본 연구는 활발히 활동하는 177명의 게이 트위터 사용자로부터 수천 건의 건강 관련 트윗을 수집·분류하여, ICD‑10 기준 7개 카테고리에 속하는 11가지 질병을 도출한다. 데이터 수집·전처리 방법론을 제시하고, 기존 역학 연구와 일치하는 결과를 확인함으로써 LGBTQ 인구의 건강 격차를 파악하는 데 소셜 미디어가 유용한 자료원이 될 수 있음을 보여준다.
상세 분석
이 논문은 LGBTQ 인구, 특히 남성 동성애자(MSM)의 건강 문제를 파악하기 위해 트위터라는 공개 소셜 미디어 플랫폼을 활용한 점이 가장 큰 특징이다. 연구자는 먼저 ‘gay’, ‘LGBT’, ‘MSM’ 등과 같은 키워드와 사용자 프로필 정보를 조합해 177명의 활발한 트위터 계정을 식별하였다. 이후 2019~2021년 사이에 해당 계정이 작성한 약 12,000건의 트윗을 크롤링했으며, 이 중 건강·질병 관련 내용만을 추출하기 위해 자연어 처리(NLP) 기반의 키워드 필터링과 주제 모델링(LDA)을 적용하였다.
전처리 단계에서는 비표준 언어, 이모티콘, 해시태그 등을 정규화하고, 스팸 및 광고성 트윗을 제거함으로써 데이터 품질을 확보하였다. 이후 의학용어 사전을 활용해 트윗 내 언급된 질병명을 표준 ICD‑10 코드와 매핑했으며, 매핑되지 않은 신조어나 은어는 전문가 검토를 거쳐 보완하였다. 결과적으로 7개의 대분류(감염성 질환, 정신·신경계 질환, 심혈관계 질환, 대사·내분비계 질환, 호흡기계 질환, 근골격계·피부 질환, 기타)와 그 하위에 11개의 구체적 질병(예: HIV/AIDS, HPV 감염, 우울증, 불안장애, 고혈압, 당뇨병, 폐렴 등)이 도출되었다.
연구는 기존 역학 조사와 비교했을 때, 트위터 데이터가 특히 정신건강(우울, 불안)과 성병(HIV, HPV) 관련 언급이 높은 경향을 보이며, 이는 실제 의료 이용 데이터와 일치한다는 점을 강조한다. 또한, 트위터 사용자들이 익명성을 활용해 개인적인 증상이나 치료 경험을 자유롭게 공유한다는 점에서, 전통적인 설문조사보다 실시간·자발적 데이터 수집이 가능하다는 장점을 부각시킨다.
하지만 몇 가지 한계도 명시한다. 첫째, 샘플이 177명에 불과해 전체 게이 인구를 대표한다고 보기 어렵다. 둘째, 트위터 사용자는 연령·소득·교육 수준 등에서 편향될 가능성이 있다. 셋째, 언어적 은어와 비표준 표현을 완전히 파악하기 어려워 일부 질병이 누락될 위험이 있다. 넷째, 개인정보 보호와 윤리적 문제(동의 없는 데이터 활용, 정체성 노출 위험)도 논의되었으며, 연구자는 데이터 익명화와 IRB 승인 절차를 거쳤다고 밝힌다.
전반적으로 이 논문은 소셜 미디어 텍스트 마이닝이 LGBTQ 건강 격차를 탐색하는 새로운 방법론을 제시했으며, 향후 더 큰 규모와 다문화적 언어 데이터를 포함한 연구가 필요함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기