트위터에서 사용자 관심 주제 자동 추출
초록
본 논문은 트위터 사용자의 트윗 집합으로부터 관심 주제를 식별하는 프레임워크를 제안한다. 핵심 아이디어는 ‘Entity Intersect Categorizing Value(EICV)’라는 매칭 메커니즘을 이용해, 사전에 정의된 카테고리별 키워드 집합과 트윗에서 추출된 엔터티를 교차시켜 점수를 산출하고, 사전 설정된 임계값을 초과하면 해당 카테고리를 사용자의 관심 주제로 판단한다. 실험 결과, 소규모 데이터에서도 높은 정확도를 보이며, 기존 광고 타게팅 방식에 비해 보다 정밀한 관심사 파악이 가능함을 입증한다.
상세 분석
이 연구는 소셜 미디어, 특히 트위터에서 사용자의 관심사를 자동으로 도출하는 방법론을 제시한다. 기존 광고 타게팅은 언어, 성별, 위치 등 정형화된 메타데이터에 의존하는 경우가 많았으며, 사용자의 실제 콘텐츠(트윗)와의 연계가 부족했다. 논문은 이를 보완하기 위해 ‘Entity Intersect Categorizing Value(EICV)’라는 새로운 매칭 프레임워크를 고안한다.
EICV는 크게 네 단계로 구성된다. 첫 번째 단계는 ‘카테고리 정의’ 단계로, 연구자는 사전 조사와 도메인 전문가 인터뷰를 통해 관심사 카테고리(예: 스포츠, 엔터테인먼트, 기술 등)를 선정하고, 각 카테고리마다 연관 키워드·구문 집합을 구축한다. 여기서 키워드 집합은 동의어, 약어, 해시태그 등을 포함하도록 확장된다.
두 번째 단계는 ‘트윗 전처리 및 엔터티 추출’이다. 트위터 API를 이용해 대상 사용자의 트윗을 수집하고, 토큰화, 정규화, 불용어 제거, 스테밍 등을 수행한다. 이후 명사·고유명사 중심의 엔터티 추출을 위해 형태소 분석기와 NER(Named Entity Recognition) 모델을 결합한다. 이 과정에서 해시태그와 멘션도 별도 엔터티로 취급한다.
세 번째 단계는 ‘가치(Value) 계산’이다. 추출된 엔터티 집합과 각 카테고리의 키워드 집합 사이의 교집합 크기를 기반으로 점수를 산출한다. 교집합 비율, 엔터티 빈도, TF‑IDF 가중치 등을 복합적으로 고려해 ‘EICV 점수’를 정의한다.
네 번째 단계는 ‘임계값 기반 분류’이다. 사전에 실험적으로 설정한 임계값을 초과하는 카테고리에 대해 해당 사용자의 관심 주제로 라벨링한다. 임계값은 데이터 규모와 카테고리 수에 따라 동적으로 조정 가능하도록 설계되었다.
실험에서는 500명 정도의 트위터 사용자를 대상으로 1,000개 이상의 트윗을 수집했으며, 라벨링된 정답 데이터와 비교해 평균 정확도 87%를 기록했다. 특히 데이터 양이 적을수록 기존 머신러닝 기반 분류기보다 과적합 위험이 낮아 안정적인 성능을 보였다.
하지만 몇 가지 한계점도 존재한다. 첫째, 카테고리 키워드 집합이 정적이라 새로운 트렌드나 신조어에 민감하게 대응하지 못한다. 둘째, 엔터티 추출 단계에서 한국어와 영어 혼용 트윗에 대한 처리 정확도가 떨어질 수 있다. 셋째, 임계값 설정이 경험적이므로 다른 도메인에 적용하려면 추가 튜닝이 필요하다. 향후 연구에서는 동적 키워드 업데이트, 멀티언어 지원, 그리고 딥러닝 기반 시맨틱 매칭을 결합해 이러한 문제를 보완하고자 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기