전이 학습 기반 계층형 토픽 모델링: 짧은 텍스트와 대규모 데이터에 대한 효율적 접근

본 논문은 소셜 미디어와 같은 짧고 잡음이 많은 텍스트 데이터에 전통적인 토픽 모델링 기법(LDA, hLDA)이 직면한 문제점을 상세히 분석하고, 이를 해결하기 위한 Transfer Hierarchical LDA(thLDA)라는 새로운 프레임워크를 제안한다. 서론에서는 트위터·페이스북 등에서 발생하는 데이터의 특성(문자 수 제한, 약어·축약어, 주제 변동성, 대량 스트리밍)을 지적하고, LDA가 단일 토픽 분포와 단어-주제 매핑에 의존하기 때문에 이러한 환경에서 의미 있는 토픽을 추출하기 어렵다는 점을 강조한다. 기존 연구로는 라벨이 있는 LDA(lLDA), 해시태그 기반 지도 학습, 그리고 무제한 토픽 수를 허용하는 hLDA가 소개되었지만, 각각 라벨 의존성, 라벨 품질 문제, 그리고 노이즈에 대한 취약성이라는 공통적인 한계를 가지고 있다. 이에 저자들은 두 가지 주요 아이디어를 결합한다. 첫째, 라벨이 풍부한 외부 도메인(예: Yahoo! 뉴스, 위키피디아)에서 얻은 ‘인간 지식’을 사전 확률로 활용한다. 이 지식은 각 라벨에 대응하는 대표 단어 집합 혹은 토픽 노드 벡터 형태로 추출되며, 코사인 유사도 등을 통해 목표 문서와 가장 유사한 라벨 경로를 선택한다. 둘째, 이러한 라벨 정보를 기존 hLDA의 경로 선택 메커니즘인 nested Chinese Restaurant Process(nCRP)에 통합한다. 구체적으로, 경로 선택 확률에 라벨 수 k와 라벨-문서 유사도 λ를 포함하는 수정식(식 3~5)을 도입함으로써, 기존에 많이 할당된 토픽뿐 아니라 라벨과의 거리도 고려하도록 설계하였다. λ는 전이 지식의 영향력을 조절하는 하이퍼파라미터이며, 실험을 통해 적절한 값이 모델 성능에 크게 기여함을 확인한다. 모델의 전체 생성 과정은 다음과 같다. (1) 무한 트리의 각 노드 k에 대해 Dirichlet(η)로 토픽 단어 분포 β_k를 샘플링한다. (2) 각 문서 d에 대해 수정된 nCRP(γ, λ)를 통해 경로 c(d)를 샘플링하고, GEM(m,π)으로 문서별 토픽 혼합 θ_d를 얻는다. (3) 문서의 각 단어는 경로 상의 레벨 Z_{d,n}을 선택한 뒤, 해당 레벨의 β_{c(d)

전이 학습 기반 계층형 토픽 모델링: 짧은 텍스트와 대규모 데이터에 대한 효율적 접근

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기