감정의 기본형을 찾는 트위터 의미군집 분석

초록

21,000여 개 트윗을 라벨링한 코퍼스를 이용해 기존 기본감정 이론 여섯 가지를 의미론적 군집화(Latent Semantic Clustering)로 평가하였다. 감정 라벨에 연결된 언어가 얼마나 구별되는가를 ‘기본성’의 지표로 삼아, 에크만의 5감정이 가장 구별도가 높음을 확인했다. 이후 모든 후보 감정을 포함한 반복 LSC 알고리즘을 적용해 새로운 기본감정 집합(수용, 수치, 경멸, 흥미, 기쁨, 만족, 졸림, 스트레스)을 도출했으며, 이는 기존 에크만 집합 대비 6.1% 높은 구별성을 보였다. 감정 프로파일 시각화와 복합감정의 수학적 분석도 제시한다.

상세 분석

본 연구는 감정 라벨이 실제 언어 사용에서 어떻게 의미적 차이를 만들어 내는지를 정량화하려는 시도로, 라벨링된 트위터 데이터 21,000건을 기반으로 LSC(Latent Semantic Clustering) 기법을 적용하였다. 먼저 기존 문헌에서 제시된 여섯 개의 기본감정 집합(예: 에크만, 플러거, 파워스 등)을 각각 별도의 코퍼스로 추출하고, 각 감정 라벨에 대한 단어‑문맥 행렬을 구축하였다. 이후 특이값 분해(SVD)를 통해 차원 축소를 수행하고, 코사인 유사도 기반 클러스터링으로 감정 간 의미적 거리를 측정했다. 구별도(distinctiveness)는 동일 감정 내 단어 군집의 응집도와 타 감정 군집과의 분리도를 결합한 지표로 정의했으며, 값이 클수록 해당 감정 라벨이 독립적인 의미 공간을 차지한다는 의미다.

분석 결과, 에크만의 ‘분노, 혐오, 기쁨, 슬픔, 공포’ 집합이 전체 평균 구별도에서 가장 높은 점수를 기록하였다. 이는 에크만이 제시한 다섯 감정이 일상 언어에서 가장 뚜렷하게 구분된다는 가설을 실증적으로 뒷받침한다. 그러나 에크만 집합은 감정의 스펙트럼을 충분히 포괄하지 못한다는 비판을 반영해, 연구진은 모든 후보 감정 라벨을 포함한 확장된 어휘 집합을 대상으로 반복 LSC 알고리즘을 적용했다. 이 알고리즘은 각 단계에서 현재 집합 내 가장 낮은 구별도를 보이는 라벨을 제거하고, 남은 라벨들의 구별도를 재계산하는 과정을 반복한다. 최종적으로 ‘수용(Accepting)’, ‘수치( Ashamed)’, ‘경멸(Contempt)’, ‘흥미(Interested)’, ‘기쁨(Joyful)’, ‘만족(Pleased)’, ‘졸림(Sleepy)’, ‘스트레스(Stressed)’ 여덟 개 라벨이 남았다.

새롭게 도출된 집합은 에크만 집합 대비 평균 구별도가 6.1% 상승했으며, 특히 ‘수치’와 ‘경멸’ 같은 사회적 평가 감정이 기존 집합에 비해 높은 구별도를 보였다. 이는 감정 라벨이 실제 사용되는 맥락에서 사회적·문화적 의미가 강하게 작용함을 시사한다. 또한 연구진은 각 감정 라벨에 대한 의미 벡터를 시각화해 ‘감정 프로파일’이라는 새로운 시각 도구를 제시했으며, 복합 감정(예: ‘불안+흥미’)을 두 감정 벡터의 선형 결합으로 표현하고, 코사인 유사도로 정량화함으로써 감정 간 상호작용을 수학적으로 분석했다.

이러한 접근은 감정 연구에서 전통적인 실험실 기반 측정(생리학적, 표정 분석 등)과는 달리, 대규모 자연언어 데이터에서 감정의 의미 구조를 추출한다는 점에서 혁신적이다. 다만 트위터 사용자층의 인구통계적 편향, 짧은 텍스트 특성, 그리고 라벨링 오류 가능성 등 데이터 한계가 존재한다는 점을 논문은 인정한다. 향후 연구에서는 다중언어 코퍼스와 장문 텍스트를 포함한 확장된 데이터셋을 활용해 감정 라벨의 보편성을 검증하고, 감정 프로파일을 실시간 감정 인식 시스템에 적용하는 방안을 모색할 필요가 있다.