잠재 클래스 모델의 최대우도 추정과 기하학적 통찰
본 논문은 범주형 데이터의 잠재 클래스(Latent Class) 모델을 기하학적 시각에서 재조명하고, 최대우도 추정 과정에서 발생하는 비식별성, 차원 결정, 다중극대점 및 대칭 데이터의 영향을 분석한다. 100 Swiss Francs 문제를 중심으로 합성·실제 데이터 예제를 통해 이론적 결과를 실증한다.
저자: ** M. Drton, B. Sturmfels, S. Sullivant **
본 논문은 범주형 변수들의 공동분포를 설명하기 위해 1950년대 사회과학에서 시작된 잠재 클래스(Latent Class, LC) 모델을 현대적인 기하학·대수학적 시각에서 재해석한다. 먼저, k개의 관측 변수 X₁,…,X_k와 r개의 잠재 클래스 H를 도입하고, 조건부 독립성을 가정한 모델을 수식 (1)과 (3)으로 정의한다. (1)은 H가 관측될 경우의 완전 로그선형 모델이며, 이는 지수족에 속해 전통적인 최대우도 추정이 닫힌 형태로 가능하지만, H가 관측되지 않음에 따라 (3) 형태의 혼합 모델이 된다. 이 혼합 모델은 지수족이 아니라 ‘계층적 지수족(stratified exponential family)’에 속해 충분통계량이 관측표 자체가 되며, 파라미터와 관측분포 사이에 비식별 영역이 존재한다.
기하학적으로는 관측 확률벡터 공간 Δ^{d‑1} 안에 독립성 표면 S(=Segre 임베딩의 이미지)와 그 r‑번째 secant variety가 정의된다. 잠재 클래스 모델 H는 S 위의 r개의 점을 선택해 그 볼록껍질을 취한 모든 점들의 합집합이며, 이는 Δ^{d‑1}와 교차한 r‑번째 secant variety와 동일하다. 이 구조는 H가 매끄러운 다양체가 아니라 반대수적 집합(semi‑algebraic set)이며, 경계와 내부에 특이점이 존재함을 의미한다. 특히 λ_h=0인 경우는 차원이 낮은 하위 모델(잠재 클래스 수가 감소한 경우)로 전이되며, 이러한 특이점은 관측 피셔 정보 행렬이 특이해지는 원인이 된다.
차원 분석에서는 두 가지 상한을 제시한다. 첫째는 전체 단순체 차원 d‑1, 둘째는 파라미터 수 r·∑_i(d_i‑1)+r‑1(표준 차원)이다. 실제 차원은 이 두 값의 최소값이며, 경우에 따라 기대 차원보다 작아지는 ‘deficient’ 현상이 발생한다. Goodman(1974)은 4개의 이진 변수와 3수준 잠재 변수를 갖는 모델이 기대 차원 14에 비해 실제 차원 13임을 보고했으며, Harris(1992)의 연습문제에서도 2×2 표에 r=2인 경우 차원 결함이 2임을 확인한다. 차원 결함은 모델 식별성에 직접적인 영향을 미치고, BIC·AIC와 같은 모델 선택 기준의 자유도 계산을 왜곡한다.
최대우도 추정 측면에서는 로그우도 L(θ)=∑_x n_x log p_θ(x) 가 일반적으로 볼록하지 않으며, EM 알고리즘은 초기값에 따라 서로 다른 국소극대점에 수렴한다. 논문은 ‘100 Swiss Francs 문제’를 중심으로 다중극대점 구조와 대칭 데이터가 초래하는 파라미터 다중성(다중해) 현상을 시각화한다. 이 문제는 관측표가 행·열 교환 대칭성을 가질 때, 서로 다른 파라미터 조합이 동일한 로그우도 값을 갖는 상황을 보여준다. 이러한 다중해는 추정의 불안정성을 야기하고, 모델 해석을 복잡하게 만든다.
기하학·대수학적 도구를 활용해 비식별 공간을 명시적으로 계산한다. 다항식 매핑, 세컨트 다양체, 토러스 곡선 등을 이용해 파라미터 공간 Θ와 관측 공간 H 사이의 사상 구조를 분석하고, 특이점 근처의 접공간(tangent cone)과 접평면(tangent space)을 구한다. 이를 위해 Macaulay2, Singular 등 컴퓨터 대수 시스템을 사용해 Gröbner basis와 다항식 아이디얼을 계산한다. 이러한 접근은 차원 결함 여부와 로그우도 함수의 지형을 정확히 파악하게 하며, 기존 통계학적 직관을 넘어 모델의 알제브라적 구조를 직접 탐색한다는 장점을 제공한다.
실제 데이터 적용 사례로는 (1) 미시간 인플루엔자 조사 데이터와 (2) 국가 장기 요양 조사 데이터를 분석한다. 두 사례 모두 변수 수가 많고, 일부 변수 조합이 대칭성을 띠어 로그우도 함수가 복수의 극대점을 갖는다. 특히 관측 피셔 정보 행렬이 거의 특이해지는 현상이 관찰되었으며, 이는 표준 asymptotic 검정이 신뢰성을 잃게 만든다. 논문은 이러한 상황에서 베이지안 사전분포를 도입하거나 정규화된 likelihood 방법을 사용하는 것이 필요함을 제안한다.
결론적으로, 논문은 잠재 클래스 모델이 갖는 비식별성, 차원 결함, 다중극대점, 대칭 데이터에 의한 파라미터 다중성 등의 근본적인 어려움을 기하학·대수학적 시각으로 체계적으로 정리한다. 이러한 통합적 접근은 모델 선택, 추정, 검정 단계에서 발생하는 문제들을 사전에 인식하고, 보다 견고한 통계적 분석을 설계하는 데 중요한 지침을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기