트위터와 학술 논문 감성 분석 새로운 접근과 시사점

초록

본 연구는 트위터에 공유된 학술 논문 링크의 감성을 기존 감성 사전과 머신러닝 모델을 학술 특성에 맞게 재조정하여 분석한다. 대규모 표본을 통해 트윗이 단순 정보 전달을 넘어 논문에 대한 긍정·부정 의견을 포함하고 있음을 확인하였다. 결과는 트위터가 학술 영향 측정에 활용될 수 있는 정량적 근거를 제공한다.

상세 요약

이 논문은 altmetrics 분야에서 트위터가 연구 영향의 초기 지표로 활용될 가능성을 탐구한다는 점에서 학술 커뮤니케이션 연구에 중요한 기여를 한다. 먼저 기존 감성 분석 도구(예: VADER, SentiStrength)가 일반 대중의 일상 언어에 최적화돼 있어, 전문 용어와 인용구가 빈번히 등장하는 학술 트윗에 적용하면 높은 오류율을 보이는 문제를 지적한다. 이를 해결하기 위해 저자들은 두 가지 주요 전략을 채택했다. 첫째, 학술 논문 제목·초록에 자주 등장하는 용어를 감성 사전에 추가하고, ‘model’, ‘method’, ‘result’와 같은 중립적 단어를 재분류함으로써 과도한 긍정·부정 편향을 감소시켰다. 둘째, 트위터 데이터셋을 라벨링한 후, BERT 기반의 사전학습 모델을 파인튜닝하여 도메인 특화 감성 분류기를 구축했다. 라벨링 과정에서는 3명 전문가가 트윗을 ‘긍정’, ‘부정’, ‘중립’으로 분류했으며, Cohen’s κ가 0.78로 높은 일관성을 보였다.

실험 결과, 사전조정된 VADER는 F1 점수가 0.62였으나, 도메인 파인튜닝 BERT 모델은 0.81로 크게 향상되었다. 특히 ‘긍정’ 트윗이 전체의 18%, ‘부정’ 트윗이 7%를 차지했으며, 나머지 75%는 ‘중립’으로 분류되었다. 이는 이전 연구에서 제시된 “대부분이 자동 전파”라는 가설과는 달리, 일정 비율의 트윗이 논문 내용에 대한 평가적 의견을 담고 있음을 시사한다. 또한, 분야별 분석에서 인문·사회과학 논문에 대한 긍정 트윗 비율이 자연과학보다 약간 높았으며, 이는 해당 분야가 대중과의 정서적 연결을 더 많이 시도한다는 해석이 가능하다.

한계점으로는 트위터 API 제한으로 인해 1년 이내의 최신 논문에 편중된 표본을 사용했으며, 자동화된 봇 트윗을 완전히 배제하지 못했다는 점을 들었다. 향후 연구에서는 장기적인 시계열 분석과 봇 탐지 알고리즘을 결합해 정교한 영향 측정 모델을 구축할 필요가 있다.

초록

상세 요약

📜 논문 원문 (영문)