시간적 다항 혼합 모델을 이용한 인스턴스 중심 진화 클러스터링

본 논문은 “Temporal Multinomial Mixture (TMM)”이라는 새로운 확률적 진화 클러스터링 모델을 제안한다. 기존의 진화 클러스터링 연구는 크게 두 갈래로 나뉘는데, 하나는 인스턴스‑중심으로 객체 자체를 재군집하는 방식이고, 다른 하나는 토픽‑중심으로 단어 분포를 추정해 시간적 변화를 분석하는 방식이다. 저자들은 인스턴스‑중심 군집화에 초점을 맞추어, 특히 범주형(카테고리) 데이터 스트림에서 특징 동시 발생을 정확히 반영하면서도 시간적 부드러움을 유지할 수 있는 모델이 필요하다고 주장한다. ### 1. 동기와 기존 연구 문헌에서는 문서 클러스터링과 토픽 모델링을 혼용하는 경우가 많지만, 두 접근법은 목표가 다르다. 토픽 모델(LDA, PLSA 등)은 디리클레 사전분포를 통해 토픽 분포를 부드럽게 만들지만, 이는 텍스트와 같이 고차원 희소 특성을 가진 경우에만 유리하다. 반면, 범주형 데이터에서는 각 특징이 상대적으로 중요하고, 비동시 발생 특징이 클러스터 품질을 크게 저하시킬 수 있다. 기존 동적 토픽 모델(DTM, MDTM 등)은 이러한 문제를 해결하지 못한다. 따라서 저자들은 디리클레 사전을 포기하고, 단순한 다항 혼합 모델(MM)을 기반으로 시간 전이 메커니즘을 도입한 TMM을 설계한다. ### 2. 모델 정의 TMM은 전통적인 다항 혼합 모델을 시간 차원으로 확장한다. 각 에포크 t에 존재하는 인스턴스 d_t는 다수의 특징 w_{tm} (빈도 n_{t,i,j})을 갖는다. 클러스터 할당 변수 z_t는 현재 시점의 사전 확률 π_t에 따라 샘플링되고, 이전 시점의 클러스터 z_{t‑1}도 동일하게 사전 π_{t‑1}에 따라 샘플링된다. 인스턴스 생성 확률은 현재 클러스터의 다항 파라미터 φ_t와 이전 클러스터 파라미터 φ_{t‑1}의 α‑가중 조합으로 정의된다. 수식적으로는 p(d_t | z_t=k, z_{t‑1}=k') = C_{ti}·∏_{j=1}^{V} (φ_{t,k,j})^{n_{t,i,j}}·(φ_{t‑1,k',j})^{α·n_{t,i,j}} 여기서 C_{ti}=∏_{m=1}^{M_ti}1/p(w_{tm})는 정규화 상수이며, 0 < α < 1 은 이전 클러스터의 영향력을 조절한다. α가 0에 가까우면 현재 시점 데이터에만 의존하고, 1에 가까우면 강한 시간적 스무딩을 제공한다. ### 3. 파라미터 추정 EM 알고리즘을 이용해 모델 파라미터 Θ = {φ, π}를 추정한다. - **E‑step**: 현재와 이전 클러스터의 결합 후방 확률 p(z_t=k, z_{t‑1}=k' | d_t=i)를 계산한다. 이는 현재 시점 특징과 이전 시점 파라미터를 모두 사용해 식 (6) 형태로 구한다. - **M‑step**: 후방 확률을 이용해 φ와 π를 업데이트한다. φ_t의 업데이트는 현재 시점 데이터와 다음 시점 데이터(시간 전이 효과)를 모두 포함하도록 설계되어, 클러스터 간 부드러운 전이를 보장한다. π_t는 해당 시점에 할당된 클러스터 비율을 기반으로 정규화한다. 알고리즘은 모든 에포크에 대해 순차적으로 수행되며, 각 에포크의 파라미터는 이전 에포크의 파라미터와 현재 데이터에 의해 동시에 업데이트된다. ### 4. 인스턴스 할당 및 클러스터 진화 추적 학습이 완료된 후, 각 인스턴스는 posterior p(z_t=k | d_t) 를 최대화하는 클러스터에 할당된다. 또한, p(z_t=k, z_{t‑1}=k') 를 통해 현재 클러스터가 이전 어느 클러스터에서 유래했는지를 추정할 수 있다. 이를 “origin”이라 부르며, 클러스터의 분할·합병 현상을 시간적으로 추적하는 데 활용한다. ### 5. 실험 두 개의 의견 데이터셋을 사용하였다. 1) **ImagiWeb 정치 트윗**: 약 7,000개의 트윗을 두 정치인 별로 수집, 9가지 측면에 대해 –2~+2의 감성 라벨을 부여. 2) **RepLab 2013**: 온라인 뉴스 기사에 대한 의견 라벨링 데이터. 비교 모델은 정적 MM, PLSA와 동적 DTM이다. 평가 지표는 (i) 클러스터 내부 응집도(Compactness), (ii) 시간적 스무딩 정도(Temporal Smoothness)이며, 두 지표를 가중 평균해 최종 성능을 산출하였다. 결과는 다음과 같다. - TMM은 정적 모델에 비해 시간적 일관성을 크게 향상시키면서도 응집도 손실을 최소화했다. - DTM은 스무딩은 뛰어나지만, 디리클레 사전으로 인한 과도한 부드러움 때문에 비동시 특징이 섞여 군집 품질이 저하되었다. - α = 0.5~0.7 구간에서 가장 좋은 트레이드‑오프가 관찰되었으며, α를 조정함으로써 사용자는 스무딩 강도를 자유롭게 선택할 수 있다. ### 6. 논의 및 향후 연구 TMM은 “단순함 + 시간 전이”라는 설계 철학을 통해 인스턴스‑중심 진화 클러스터링에 적합함을 입증했다. 그러나 몇 가지 제한점도 존재한다. - 클러스터 수 K를 사전에 지정해야 하며, 자동 추정 메커니즘이 부재한다. - α 파라미터는 경험적으로 설정해야 하며, 데이터에 따라 최적값이 달라질 수 있다. - 현재 모델은 1‑step 선형 전이만을 가정하므로, 급격한 구조 변화를 포착하는 데는 한계가 있다. 저자들은 비파라메트릭 베이즈(예: Dirichlet Process) 기반 확장을 통해 클러스터 수 자동 추정, 그리고 다중‑스텝 혹은 비선형 전이 모델을 도입하는 방향을 제안한다. 또한, 이미지, 유전자, 네트워크 데이터와 같은 비텍스트 범주형 데이터에 대한 적용 가능성을 탐색하고 있다.

시간적 다항 혼합 모델을 이용한 인스턴스 중심 진화 클러스터링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기