감정 강도 추정: 트위터 데이터와 베스트‑워스트 스케일링 활용

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 트위터 글에서 분노, 공포, 기쁨, 슬픔 네 감정의 강도를 0‑1 실수값으로 예측하는 작업을 정의하고, 베스트‑워스트 스케일링(BWS) 기반 크라우드 어노테이션을 통해 7,097개의 트윗에 대한 고품질 강도 라벨을 구축하였다. 해시태그가 감정 강도에 미치는 영향을 분석하고, 다양한 언어·심리학적 특징을 활용한 회귀 모델(AffectiveTweets)로 베이스라인 성능을 제시한다. 또한 감정 간 특징 공유 정도를 실험적으로 조사한다.

상세 분석

이 연구는 감정 인식 분야에서 ‘강도’라는 연속적 속성을 다루는 최초의 대규모 트위터 데이터셋을 제공한다는 점에서 학술적·실용적 의의가 크다. 기존 감정 분석은 주로 ‘분류’에 초점을 맞추어 0/1 라벨을 부여했지만, 실제 서비스(고객 불만 탐지, 위기 대응 등)에서는 감정의 강도가 의사결정에 직접적인 영향을 미친다. 논문은 이를 해결하기 위해 두 가지 핵심 방법론을 도입한다. 첫째, 베스트‑워스트 스케일링(BWS)이라는 비교 기반 라벨링 방식을 채택한다. BWS는 4‑tuple 형태로 트윗을 제시하고 가장 강하고 가장 약한 감정을 선택하게 함으로써, 절대점수 부여 시 발생하는 ‘스케일 편향’과 ‘주관적 변동’ 문제를 크게 감소시킨다. 특히 각 트윗이 8개의 서로 다른 4‑tuple에 등장하도록 설계한 RMDS(Random Maximum‑Diversity Selection) 전략은 아이템 간 비교 기회를 균등하게 배분해 신뢰도 높은 상대 순위를 확보한다. 두 번째로, 크라우드소싱 플랫폼 CrowdFlower를 이용해 각 4‑tuple에 대해 3명의 독립 어노테이터가 판단하도록 함으로써, 평균 24번의 판단(8 × 3)으로 각 트윗의 최종 점수를 계산한다. 점수는 “가장 많이 선택된 비율 – 가장 적게 선택된 비율”으로 구해 −1~~1 범위에 놓이고, 이를 0~~1 구간으로 선형 변환한다. 이렇게 얻어진 스코어는 ‘분할‑반반 신뢰도(Split‑Half Reliability)’를 통해 검증했으며, 전체 데이터셋에서 0.91 이상의 높은 상관계수를 기록, 라벨링 일관성이 뛰어남을 입증한다.

데이터 구축 과정에서도 세심한 설계가 돋보인다. 감정별 ‘쿼리 단어’를 Roget’s Thesaurus에서 추출해 50100개의 대표 어휘를 선정하고, 해당 어휘가 포함된 트윗을 API로 수집한다. 여기서 리트윗, URL 포함 트윗을 제외하고, 동일 사용자가 동일 어휘로 여러 번 포스팅하는 경우를 제한해 데이터 편향을 최소화했다. 또한 해시태그 형태(#anger 등)와 일반 형태를 구분해 ‘Hashtag Query Tweet(HQT)’, ‘No Query Tweet(NQT)’, ‘Query Tweet(QT)’ 세 그룹을 만든 뒤, HQT와 NQT를 쌍으로 비교함으로써 해시태그가 감정 강도에 미치는 효과를 정량화했다. 결과는 해시태그가 감정 강도를 평균 0.070.12 정도 상승시키는 것으로, 해시태그가 감정 표현의 강조 수단임을 실증한다.

모델링 측면에서는 다양한 특성을 조합한 회귀 시스템인 ‘AffectiveTweets’를 제안한다. 기본 특성은 (1) 단어 n‑gram, (2) 감정 사전 기반 점수(예: NRC Emotion Lexicon), (3) 파트‑오브‑스피치, (4) 어휘적 풍부성(단어 수, 고유 단어 비율), (5) 문자 수준 특징(대문자 비율, 이모티콘/이모지 존재 여부) 등이다. 특히 감정 사전 점수는 각 감정별 단어 가중치를 반영해 강도 예측에 직접적인 신호를 제공한다. 실험 결과, 감정 사전과 n‑gram을 결합한 모델이 가장 높은 Pearson 상관계수(r ≈ 0.71)를 기록했으며, 개별 특성별 기여도를 분석한 바에 따르면 감정 사전이 전체 성능의 약 30%를 차지한다. 또한 교차 감정 실험을 통해, 예를 들어 ‘분노’에 학습된 모델이 ‘슬픔’ 강도 예측에 어느 정도 전이될 수 있음을 확인했다. 이는 감정 간 언어적 표현이 완전히 독립적이지 않으며, 일부 공통된 어휘·구문 패턴이 존재함을 시사한다.

전체적으로 이 논문은 (1) BWS를 텍스트 수준에 성공적으로 적용한 방법론, (2) 감정 강도 라벨링을 위한 대규모 고품질 데이터셋, (3) 감정 강도 예측을 위한 베이스라인 회귀 모델 및 특성 분석, (4) 해시태그가 감정 강도에 미치는 정량적 영향 등 네 축으로 기여한다. 향후 연구에서는 (i) 다국어·다문화 트윗에 대한 확장, (ii) 심층 신경망(Transformer) 기반 모델과 BWS 라벨의 결합, (iii) 실시간 감정 강도 모니터링 시스템 구축 등을 통해 실용성을 더욱 높일 수 있을 것으로 기대된다.

감정 강도 추정: 트위터 데이터와 베스트‑워스트 스케일링 활용

초록

상세 분석

댓글 및 학술 토론

의견 남기기