확률적 잠재 의미 분석: 텍스트와 공존 데이터의 새로운 통계 모델

** 확률적 잠재 의미 분석(PLSA)은 문서‑단어 행렬을 잠재 토픽의 혼합 모델로 분해하는 통계적 방법이다. 기존의 선형대수 기반 잠재 의미 분석(LSA)과 달리, PLSA는 명시적 확률 모델을 사용해 토픽과 단어, 문서 사이의 조건부 확률을 추정한다. 최대우도 추정을 EM 알고리즘으로 수행하지만, 과적합을 방지하기 위해 온도 조절이 가능한 ‘템퍼드 EM(Tempered EM)’을 도입한다. 실험 결과, 정보 검색, 문서 분류, 언어 모델…

저자: Thomas Hofmann

** 본 논문은 두 모드(문서‑단어) 혹은 일반적인 공존 데이터에 적용 가능한 새로운 통계적 분석 기법인 ‘확률적 잠재 의미 분석(Probabilistic Latent Semantic Analysis, PLSA)’을 제안한다. 기존의 잠재 의미 분석(LSA)은 공분산 행렬에 대한 특이값 분해(SVD)를 이용해 차원을 축소하고 의미 공간을 구성한다. 이러한 선형대수적 접근은 최적의 저차원 근사를 제공하지만, 텍스트와 같이 이산적이고 희소한 데이터에 대해 확률적 해석이 부족하고, 모델이 데이터 생성 과정을 반영하지 못한다는 한계가 있다. PLSA는 이러한 한계를 극복하기 위해 문서 d와 단어 w의 공동 발생을 잠재 토픽 z의 혼합 모델로 표현한다. 구체적인 모델식은 \

확률적 잠재 의미 분석: 텍스트와 공존 데이터의 새로운 통계 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기