손쉽게 주제 수를 찾는 파라미터 없는 토픽 모델
초록
본 논문은 토픽 모델링에서 가장 번거로운 파라미터인 토픽 수 K를 자동으로 결정하도록 설계된 비모수적 PLSA(nPLSA)를 제안한다. 최소 적합도 임계값을 이용해 새로운 토픽을 생성하고, 토픽 간 다양성을 최대화하거나 사용자가 제시한 예시 토픽에 맞추는 두 가지 파라미터‑프리 전략을 통해 K를 완전히 제거한다. 실험 결과, 제안 모델은 기존 베이지안 비모수 모델보다 품질이 높으며, 대규모 데이터에도 효율적으로 적용된다.
상세 분석
논문은 기존 토픽 모델링에서 토픽 수 K를 사전에 지정해야 하는 불편함을 근본적으로 해결하고자 한다. 이를 위해 PLSA의 EM 구조에 ‘문서 적합도’라는 새로운 기준을 도입한다. 구체적으로, 현재 토픽 집합 Θ에 문서 d를 적용했을 때의 로그우도와, d 자체를 새로운 토픽으로 추가한 Θ′=Θ∪θ_d의 로그우도 차이를 Δ(d,Θ)로 정의한다. Δ가 사전에 설정한 최소 임계값 ε를 초과하면 d는 새로운 토픽을 생성하도록 유도한다. 이 과정은 기존 PLSA의 E‑step에 삽입되어, 한 번의 실행으로 토픽 수가 동적으로 증가한다는 점에서 비모수적이라 할 수 있다.
하지만 ε 자체가 새로운 파라미터가 되므로, 저자는 이를 제거하기 위한 두 가지 파라미터‑프리 방법을 제시한다. 첫 번째는 토픽 간 다양성(diversity)을 측정하는 것이다. 토픽 분포를 벡터화한 뒤 코사인 거리 혹은 KL 발산을 이용해 평균 거리 혹은 최소 거리의 합을 계산한다. 토픽 수가 증가함에 따라 다양성은 초기에는 상승하지만, 과도하게 세분화되면 서로 중복되는 토픽이 생겨 감소한다. 따라서 다양성이 최고점에 도달했을 때 알고리즘을 멈추면 최적의 K를 자동으로 찾을 수 있다. 두 번째는 사용자가 ‘예시 토픽’(예: 키워드 하나)만 제공하면 된다. 모델은 예시 토픽과 유사한 규모와 의미적 범위의 토픽을 생성하도록 ε를 조정한다. 즉, 사용자는 토픽 수 대신 토픽의 ‘그레인’만 제시하면 되므로, 실제 사용 환경에서 매우 직관적이다.
알고리즘 복잡도 측면에서 nPLSA는 기존 PLSA와 동일한 EM 반복 구조를 유지하면서 토픽 추가 단계만 추가된다. 새로운 토픽이 생성될 때마다 해당 문서의 단어들을 초기 라벨링하고, 이후 fold‑in 과정을 통해 전체 코퍼스에 전파한다. 따라서 대규모 데이터셋에서도 한 번의 실행만으로 다양한 K를 탐색할 수 있어, 교차 검증이나 베이지안 비모수 모델(HDP, hLDA)에서 요구되는 다중 실행 비용을 크게 절감한다.
실험에서는 합성 데이터와 실제 뉴스·위키·소셜 미디어 코퍼스를 사용해 세 가지 평가 지표(퍼플렉시티, 토픽 일관성, 인간 평가)를 수행했다. 파라미터‑프리 nPLSA는 퍼플렉시티가 기존 PLSA와 비슷하거나 약간 낮았으며, 토픽 일관성 점수는 HDP보다 현저히 높았다. 특히 다양성 기반 멈춤 기준은 토픽 수가 실제 데이터 복잡도와 일치하는 지점을 정확히 포착했으며, 예시 토픽 기반 방법은 사용자가 원하는 세부 수준을 효과적으로 반영했다. 전체적으로 제안 모델은 품질·효율·사용성 세 축에서 기존 방법들을 능가한다는 결론을 얻었다.
댓글 및 학술 토론
Loading comments...
의견 남기기