팔로우만으로 트위터 사용자 연령을 추정하는 베이지안 모델

본 논문은 트위터 사용자가 팔로우하는 계정 정보를 이용해 연령을 추정하는 언어‑독립적 베이지안 프레임워크를 제안한다. 133 000명의 연령 공개 사용자를 라벨로 삼아 700 백만 계정에 대해 10개 연령 구간으로 높은 정확도를 달성했으며, 데이터 수집, 라벨 정제, 특징 선택, 계층적 베타‑베르누이 모델링 과정을 상세히 기술한다.

저자: Benjamin Paul Chamberlain, Clive Humby, Marc Peter Deisenroth

팔로우만으로 트위터 사용자 연령을 추정하는 베이지안 모델
본 논문은 트위터 사용자의 연령 정보를 확보하기 위해, 사용자가 팔로우하는 계정(‘팔로우’)만을 이용하는 언어‑독립적 베이지안 추정 모델을 제안한다. 트위터는 공개적인 소셜 네트워크이지만, 사용자 프로필에 연령 등 인구통계학적 정보가 거의 없으며, 기존 연구는 주로 트윗 텍스트의 언어적 특징이나 사용자 이름을 활용해 연령을 추정했다. 이러한 방법은 다국어 환경에서 적용이 어려우며, 트윗이 적은 사용자에 대해서는 성능이 저하되는 문제가 있다. 논문은 먼저 연령 라벨이 명시된 사용자를 찾기 위해 700 백만 계정의 프로필 설명란을 정규표현식(Regex)으로 스캔한다. “I am 22 years old”와 같은 패턴을 4개 주요 언어(영어, 스페인어, 프랑스어, 포르투갈어)에서 탐색해 133 000명의 활성 사용자를 라벨링한다. 여기서 ‘활성’은 최근 3개월 이내에 트윗하거나 팔로우 활동을 한 계정으로 정의한다. 라벨링 과정에서 봇·스팸·해킹 계정 등 노이즈를 제거하기 위해, 각 라벨이 모델에 미치는 영향을 KL‑다이버전스 기반 leave‑one‑out 방식으로 평가하고, 3배 중앙값 절대편차를 초과하는 246개의 이상치를 제외한다. 또한, 은퇴자와 조부모 계정을 추가 탐색해 고연령 라벨을 보강함으로써 전체 라벨 수를 약 374 000개로 확대한다. 특징은 ‘팔로우된 계정’ 자체이며, 라벨 사용자가 10명 이상 팔로우한 계정을 후보로 삼아 총 103 722개의 이진 특징을 만든다. 예시로, 가상의 @williamockam 계정이 팔로우한 73개 계정 중 8개가 이 기준을 만족한다. 각 특징은 사용자가 해당 계정을 팔로우했는지 여부(1/0)로 표현된다. 베이지안 모델링에서는 연령 라벨 A(10개 구간)와 특징 벡터 X에 대해 사후 확률 P(A|X) ∝ P(X|A)·P(A)를 계산한다. 사전분포 P(A)는 미국 인터넷 사용자 설문과 인구조사를 결합해 연령별 트위터 사용 비율을 반영한다. Likelihood P(X|A)는 나이브 베이즈 가정 하에 각 특징이 연령에 조건부 독립이라고 가정하고, 베르누이 분포 Ber(μia)로 모델링한다. μia에 대한 사전은 계층적 베타(β) 분포 Beta(μia|bia,ca)를 사용한다. 여기서 ca는 연령 구간별 라벨 수 na에 비례하고, bia는 전체 트위터 사용자 수 K와 해당 특징의 팔로워 수 ni를 이용해 bia ∝ na·ni/K 로 설정한다. 이 설계는 라벨이 부족한 고연령 구간에서 베타 사전이 강하게 작용해 과도한 추정 편향을 억제하고, 라벨이 풍부한 청년 구간에서는 데이터가 파라미터를 주도하도록 만든다. 모델 학습은 라벨 데이터와 베타‑베르누이 구조를 이용한 MAP 추정으로 수행되며, 추정된 μia를 이용해 각 미라벨 사용자에 대한 연령 구간별 사후 확률을 계산한다. 구현은 Spark 기반 분산 처리로 700 백만 계정에 대해 수시간 내에 추론을 완료한다. 성능 평가에서는 Top‑1 정확도, Top‑3 정확도, 그리고 연령 구간별 F1 점수를 사용했다. 전체 평균 Top‑1 정확도는 0.78이며, 10‑19세 구간에서 0.85, 20‑29세에서 0.80, 30‑39세에서 0.75, 40‑49세에서 0.70, 50‑59세에서 0.65, 60‑69세에서 0.62, 70‑79세에서 0.58을 기록했다. 이는 기존 텍스트 기반 모델이 저조한 성능을 보이는 저트윗 사용자(중위수 4개 트윗)에서도 비교적 높은 정확도를 유지한다는 점에서 의미가 크다. 또한, 논문은 재현성을 위해 두 가지 파일(희소 인접 행렬과 라벨 벡터)을 공개하고, 라벨이 균등하게 분포된 7개 연령 구간(10‑19, 20‑29, …, 70‑79)으로 다운샘플링한 공개 데이터셋을 제공한다. 이 데이터는 최소 10명의 라벨 사용자가 팔로우한 계정만 포함해 특징 차원을 제한하고, 기본적인 베이지안 모델 실험에 바로 사용할 수 있다. 논문의 주요 기여는 다음과 같다. 첫째, 텍스트·언어에 의존하지 않는 순수 네트워크 기반 연령 추정 방법을 제시했다. 둘째, 라벨 편향을 베이지안 계층 모델로 보정해 고연령 라벨이 희소한 상황에서도 안정적인 추정을 가능하게 했다. 셋째, 700 백만 규모의 실용적 적용과 공개 데이터셋 제공을 통해 연구 커뮤니티에 재현 가능성을 높였다. 한계점으로는 사전분포가 미국 중심이라는 점, 팔로우 행동이 실제 관심·연령을 완전히 대변하지 않을 가능성, 그리고 계층적 베타 사전의 하이퍼파라미터 선택이 경험적이라는 점을 들 수 있다. 향후 연구에서는 지역별 사전조정, 텍스트·이미지·팔로우를 결합한 멀티모달 베이지안 모델, 그리고 시간에 따른 연령 변화를 추적하는 동적 베이지안 프레임워크 등을 탐색할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기