공유와 개인 토픽을 동시에 학습하는 다중모달 토픽 모델
초록
본 논문은 이미지와 텍스트와 같이 약하게 연관된 다중모달 데이터를 위해, 공유 토픽과 각 모달리티 전용(프라이빗) 토픽을 자동으로 구분·학습하는 HDP 기반의 새로운 토픽 모델을 제안한다. 모델은 CTM의 상관 구조와 DILN의 스틱‑브레이킹 메커니즘을 결합해 토픽 수를 비지도적으로 결정하고, 관측된 한 모달리티로부터 다른 모달리티를 예측하는 데 뛰어난 성능을 보인다.
상세 분석
이 연구는 다중모달 데이터 분석에서 “공유(Shared) 토픽”과 “개인(Private) 토픽”을 동시에 식별할 수 있는 모델링 프레임워크를 제시한다는 점에서 의미가 크다. 기존의 연속형 데이터용 CCA 기반 방법은 구조적 희소성을 이용해 공유·개인 성분을 구분했지만, 카운트 데이터(예: bag‑of‑words)에는 직접 적용하기 어렵다. 반면, 기존의 다중모달 토픽 모델(LDA 기반)은 모달리티 간 강한 상관을 전제로 하여, 실제 이미지‑텍스트 쌍처럼 약한 연관성을 가진 경우에도 불필요한 상관을 강제한다.
논문은 이러한 한계를 극복하기 위해 세 가지 핵심 아이디어를 결합한다. 첫째, Correlated Topic Model(CTM)의 로지스틱 정규분포 기반 토픽 비율 ξ를 도입해 모달리티 간·내 상관 구조를 Σ 행렬로 명시한다. Σ의 대각 블록은 각 모달리티 내부의 토픽 상관을, 비대각 블록은 모달리티 간 상관을 담당한다. 둘째, Hierarchical Dirichlet Process(HDP)를 각 모달리티마다 독립적으로 적용해 스틱‑브레이킹 변수 V^(m)와 그에 따른 선택 확률 p^(m) 를 생성한다. 이 과정에서 특정 토픽이 어떤 모달리티에서는 거의 0에 가까운 가중치를 갖도록 “스위치‑오프”가 자동화된다. 셋째, DILN(Discrete Infinite Logistic Normal)에서 차용한 Gamma‑exp(−ξ) 형태의 토픽 비율 θ^(m) 를 사용해, ξ가 공유되는 동시에 p^(m) 가 모달리티별 토픽 선택을 조절함으로써 “공유 토픽”과 “프라이빗 토픽”을 자연스럽게 구분한다.
수학적으로는 θ_k^(m) ∝ Γ(β^(m) p_k^(m), exp(−ξ_k^(m))) 로 정의되며, 여기서 β^(m)와 p_k^(m) 은 HDP의 전역·지역 파라미터, ξ_k^(m) 은 CTM에서 샘플링된 정규 변수다. Σ가 비대각 성분을 가질 경우 ξ의 공동 분포가 두 모달리티를 연결해 주어, 관측된 한 모달리티의 ξ̂ 를 통해 다른 모달리티의 ξ̂ 를 조건부 기대값(선형 변환 W)으로 추정할 수 있다. 이는 논문이 제시한 예측 단계에서 핵심 역할을 한다.
추론은 변분법을 사용한다. 각 모달리티별로 토픽-단어 분포 η^(m), 스틱‑브레이킹 V^(m), 그리고 ξ를 포함한 전역 파라미터에 대해 순차적 업데이트를 수행한다. ξ에 대한 변분 분포는 대각 공분산을 갖는 정규분포 q(ξ)=N(ξ̃, diag(ṽ)) 로 가정하고, Σ⁻¹ 를 고정한 채 그래디언트 상승을 통해 ξ̃와 ṽ 를 최적화한다. μ와 Σ 은 최대 주변가능도 추정으로 갱신한다. 이 과정에서 HDP의 트렁케이션 레벨 T 를 사전에 지정하지만, 실제 활성 토픽 수는 p^(m) 가 0에 가까워지는 토픽을 자동으로 제외함으로써 비지도적으로 결정된다.
실험에서는 위키피디아 페이지(이미지 + 전체 텍스트) 데이터를 사용했으며, 모달리티 간 상관이 매우 낮은 상황에서도 제안 모델이 기존 HDP‑LDA, Corr‑LDA 등 대비 텍스트 복원 정확도와 이미지‑텍스트 매칭 점수에서 현저히 우수함을 보였다. 특히, 공유 토픽은 이미지와 텍스트 모두에 나타나는 일반적인 개념(예: “인물”, “풍경”)을, 프라이빗 토픽은 텍스트에만 존재하는 상세 설명이나 이미지에만 나타나는 시각적 특성을 포착한다는 정성적 분석 결과도 제시한다.
결과적으로, 이 모델은 다중모달 카운트 데이터에서 공유·개인 구조를 자동으로 학습하고, 관측된 한 모달리티만으로 다른 모달리티를 효과적으로 예측할 수 있는 강력한 도구로 자리매김한다.
댓글 및 학술 토론
Loading comments...
의견 남기기