소셜 태깅을 위한 베이지안 토픽 모델링

본 논문은 소셜 북마크 및 태깅 시스템(Delicious, CiteULike 등)에서 사용자들이 남기는 태그를 활용해 리소스의 의미적 구조를 추출하고, 이를 기반으로 자원 검색·추천을 개선하는 새로운 확률 모델을 제시한다. 기존 텍스트 기반 토픽 모델(LDA, pLSA 등)은 모든 사용자에게 동일한 단어‑토픽 매핑을 가정하기 때문에, 사용자마다 다른 의미로 같은 태그를 사용할 경우(예: “jaguar”가 자동차, 동물, 컴퓨터 등 여러 의미를 가짐) 정보를 손실한다. 저자들은 이러한 문제를 해결하기 위해 두 단계의 잠재 변수를 도입한다. 첫 번째는 리소스‑토픽 변수 Z로, 리소스가 어떤 주제에 속하는지를 나타낸다. 두 번째는 사용자‑관심 변수 X로, 사용자가 어떤 관심군에 속하는지를 나타낸다. 각각의 리소스는 토픽 분포 φ_r, 사용자는 관심 분포 ψ_u를 가지고, (X, Z) 쌍마다 태그 분포 θ_{x,z}가 정의된다. 이 구조는 그림 1(a)에서 태그 생성 과정을, 그림 1(b)에서 전통적인 단어 생성 과정을 시각적으로 비교한다. 이전 연구에서 제안된 Interest‑Topic Model(ITM)은 pLSA를 확장했지만, 파라미터를 EM으로 추정하면서 지역 최적화와 토픽·관심 수를 사전에 지정해야 하는 제약이 있었다. 본 논문은 ITM을 완전 베이지안 형태로 전환한다. 구체적으로 ψ_u, φ_r, θ_{x,z}에 대칭 디리클레 사전(α, β, η)을 부여하고, Gibbs 샘플링을 통해 숨은 변수 x와 z를 순차적으로 업데이트한다. 사전 하이퍼파라미터는 각각 토픽, 관심, 태그의 분산을 조절하며, 사후 추정 단계에서는 ψ, φ, θ를 기대값으로 복원한다. 또한, 모델의 차원(토픽 수 N_Z, 관심 수 N_X)을 고정하지 않고, 계층적 디리클레 프로세스(HDP)를 적용해 데이터에 따라 자동으로 확장·축소하도록 설계하였다. 이는 기존 LDA가 사전 지정된 토픽 수에 의존하는 것과 달리, 실제 데이터 구조에 맞는 복잡도를 스스로 학습한다는 장점을 제공한다. 실험은 두 부분으로 구성된다. 첫 번째는 합성 데이터에서 토픽·관심이 명확히 구분되는 상황과, 태그가 다의성을 갖는 상황을 시뮬레이션하여 모델의 복원 정확도와 퍼플렉시티를 평가한다. 결과는 HDP‑ITM이 LDA보다 낮은 퍼플렉시티와 높은 토픽 재현율을 보이며, 특히 사용자별 관심이 태그 의미 구분에 크게 기여함을 확인한다. 두 번째는 실제 Delicious 데이터셋을 이용한 평가이다. 여기서는 각 웹 리소스에 대해 학습된 토픽 분포를 기반으로 코사인 유사도를 계산하고, 특정 리소스와 유사한 다른 리소스를 추천한다. 인간 평가자들이 직접 판단한 정밀도·재현율 결과는 LDA 기반 방법보다 HDP‑ITM이 평균 12% 정도 높은 성능을 보였다. 특히 “jaguar”와 같이 다의성을 가진 태그가 사용자 관심에 따라 서로 다른 토픽으로 분리되는 현상이 뚜렷하게 관찰되었다. 논문의 주요 기여는 다음과 같다. (1) 사용자별 관심을 명시적으로 모델링함으로써 소셜 태깅의 다의성·희소성 문제를 완화한다. (2) 베이지안 프레임워크와 HDP를 도입해 토픽·관심 수를 데이터에 맞게 자동 조정한다. (3) Gibbs 샘플링 기반 추론 알고리즘을 제시하고, 실험을 통해 LDA 대비 실용적인 이점을 입증한다. 최종적으로, 제안된 모델은 소셜 미디어에서 생성되는 비구조화된 메타데이터를 효과적으로 구조화하고, 향상된 자원 검색·추천 시스템 구축에 활용될 수 있다.

소셜 태깅을 위한 베이지안 토픽 모델링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기