트위터 사용자 연령 예측을 위한 영향력 친구 네트워크와 DBpedia 활용
초록
본 논문은 트위터 사용자의 연령을 예측하기 위해, 사용자가 팔로우하는 영향력 있는 친구들의 메타데이터와 DBpedia에 저장된 지식 그래프 정보를 결합한 특성 엔지니어링 파이프라인을 설계한다. 23,120명의 사용자 데이터를 기반으로 372개의 특징을 추출하고, 선형·비선형 회귀 모델(LASSO, ElasticNet, SVR 등)을 교차 검증과 AIC/ BIC 기준으로 평가한다. 실험 결과, 비선형 SVR(RBF 커널)이 가장 낮은 평균 절대 오차를 기록했으며, DBpedia 기반 의미론적 특징이 예측 정확도 향상에 기여함을 확인한다.
상세 분석
이 연구는 트위터 연령 예측을 “친구‑팔로워 네트워크 + 외부 지식 그래프”라는 두 축으로 접근한다는 점에서 차별성을 가진다. 먼저 데이터 수집 단계에서 Twitris 데이터셋을 활용해 자기 소개에 명시된 연령을 정규식으로 추출하고, 해당 사용자의 팔로잉 리스트를 API로 수집한다. 여기서 핵심은 상위 50명의 인기 트위터 사용자를 Wikipedia와 매핑하고, 이들의 DBpedia 엔티티 URI를 확보한 뒤, DBpedia Spotlight(신뢰도 0.8)로 팔로워 프로필을 자동 연결해 의미론적 라벨을 부여한 것이다. 이렇게 얻은 “rdf:type” 카테고리, birthDate 등 372개의 정량적·범주형 특성을 하나의 피처 벡터에 통합한다.
특징 엔지니어링에서는 팔로워 수, 평균·중앙값 팔로워 수, 평균·중앙값 연령, 각 rdf:type별 팔로잉 횟수 등을 포함했으며, 이는 기존 텍스트 기반 LDA, POS 등 얕은 언어 특징보다 고차원 의미 정보를 제공한다. 데이터는 19~29세에 집중된 심한 왜도를 보였으며, Kolmogorov‑Smirnov p‑값 0.04으로 전체 특성이 연령과 통계적으로 연관됨을 확인했다.
모델 선택에서는 선형 회귀(LR), LASSO, ElasticNet, 그리고 서포트 벡터 회귀(SVR) 등을 비교하였다. LASSO는 변수 선택 효과가 있지만 과적합 위험이 있었고, ElasticNet은 L1·L2 혼합 정규화로 희소성을 완화했지만 성능이 제한적이었다. 비선형 커널을 적용한 SVR(RBF, Polynomial)에서는 데이터의 비선형 관계를 포착해 R²가 가장 높고 MAE가 가장 낮았다. 교차 검증(10‑fold)과 다양한 train‑test 비율(0.1, 0.25, 0.33)에서 AIC·BIC를 활용해 최적 하이퍼파라미터를 탐색했으며, 최종 모델은 ε‑insensitive 손실과 C 파라미터를 조정한 RBF‑SVR이었다.
실험 결과는 DBpedia 기반 의미론적 피처가 단순 카운트 피처만 사용할 때보다 평균 절대 오차를 약 1.2년 감소시켰음을 보여준다. 또한, 연령 분포가 편중된 상황에서도 비선형 모델이 안정적인 예측을 제공한다는 점에서, 기존의 텍스트‑중심 혹은 단순 네트워크 기반 접근법보다 실용적 우위를 가진다. 한계점으로는 연령 라벨이 자기 보고식이므로 노이즈가 존재하고, 인기 사용자를 중심으로 한 샘플링이 전체 트위터 생태계를 완전히 대변하지 못한다는 점을 언급한다. 향후 연구에서는 멀티모달 텍스트·이미지·동영상 특징을 결합하고, 그래프 신경망(GNN)으로 친구‑친구 관계의 구조적 정보를 직접 학습하는 방향을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기