다중정수 속성 및 공변량을 포함한 제한 잠재 클래스 모델
초록
본 논문은 단일 시점에서 수집된 다항형 응답을 이용해, 다차원 순서형 속성을 가진 잠재 클래스를 추정하는 제한 잠재 클래스 모델(RLCM)을 제안한다. 속성 간 상관을 다변량 프로빗으로 모델링하고, 응답자 수준의 공변량을 잠재 상태와 연결한다. 베이지안 MCMC와 파라미터 확장을 통해 효율적인 추정이 가능함을 시뮬레이션과 우울증 진단 데이터 적용을 통해 입증한다.
상세 분석
이 연구는 기존 RLCM이 주로 이진 속성에 국한되고, 공변량을 반영하지 못한다는 한계를 극복한다. 먼저 측정 모델을 누적 프로빗(cumulative probit) 형태로 설정하여, 각 항목 j의 M_j 개의 다항형 응답을 잠재 속성 벡터 α_n 에 조건부로 연결한다. 설계 벡터 d_n 은 “누적 코딩(cumulative coding)”을 이용해 α_n 의 각 속성 k 에 대해 0 부터 L‑1 까지의 수준을 이진 지표로 전개하고, 이를 텐서곱으로 결합해 전체 디자인 차원 H 를 만든다. 이 과정은 속성 수준이 증가할수록 응답 확률이 단조 증가하도록 하는 단조성(monotonicity) 조건을 자연스럽게 구현한다. 단조성은 d_u β_j ≥ d_v β_j ( u ≥ v ) 형태로 제약되며, 이는 기존 연구보다 엄격한 제약이다.
잠재 구조는 다변량 정규 프로빗 모델로 정의한다. 연속 잠재 변수 α*_n 은 공변량 X_n 과 회귀계수 λ 를 평균으로, 상관 행렬 R 을 공분산으로 갖는 K‑차원 정규분포를 따른다. 이후 임계값 γ_k 을 이용해 α*_n 을 이산화해 α_n 을 생성한다. 이때 γ_k 는 좌측 절단 지수분포를 사전분포로 두어, 상위 클래스에 속하는 응답자가 전혀 없을 경우에도 샘플링이 안정적으로 이루어지도록 설계하였다.
베이지안 사전은 다음과 같이 구성된다. 측정 모델의 회귀계수 β_j 에 대해서는 Kuo‑Mallick 방식의 스파이크‑슬래브 사전과 단조성 제약을 동시에 만족하도록 하는 지시함수 I(·) 를 도입한다. 이는 변수 선택을 자연스럽게 수행하면서도 모델 해석성을 유지한다. 구조 모델의 회귀계수 λ 은 R 과 독립적인 정규 사전을 갖고, 상관 행렬 R 은 LKJ와 유사한 형태의 사전으로 설정해 양의 정정성을 보장한다.
추정은 데이터 증강(data augmentation) 전략을 활용한다. 응답 Y_nj 에 대해 잠재 연속 변수 Y*_nj 를 도입해 정규화된 형태로 변환하고, 임계값 κ_j 을 통해 원본 다항형 응답을 복원한다. 이와 동시에 α*_n 에 대한 증강 변수를 도입해 다변량 정규의 조건부 분포를 이용한 Gibbs 샘플링이 가능하도록 한다. 파라미터 확장(parameter expansion) 기법을 적용해 β, δ, ω, γ, λ, R 등 복합적인 파라미터 블록을 효율적으로 업데이트한다.
시뮬레이션에서는 (1) 속성 간 상관이 강한 경우, (2) 공변량 효과가 약한 경우, (3) 다항형 응답 카테고리가 불균형한 경우 등 다양한 상황을 설정해 모델 복원력을 검증하였다. 결과는 제안 모델이 진짜 파라미터를 정확히 회복하고, 기존 이진‑속성 RLCM 대비 예측 정확도가 현저히 높음을 보여준다.
실제 적용에서는 우울증 진단 설문 데이터를 사용했다. 각 항목은 4‑5개의 리커트 척도로 구성돼 있었으며, 연령·성별·사회경제적 지표 등 3개의 공변량을 포함했다. 모델은 기존 단일 요인 분석이 포착하지 못한 다중 차원적 우울증 하위 유형을 식별했으며, 특히 고위험군과 저위험군 사이의 속성 상관 구조가 차별적으로 나타났다. 사후 예측 검증(posterior predictive checks)과 WAIC 기반 모델 선택 절차를 통해 최적 차수 K=3 와 L=4 가 선택되었고, 이는 임상적 해석과도 일치했다.
전반적으로 이 논문은 (1) 다항형 속성을 지원하는 RLCM, (2) 속성 간 자유로운 상관 구조를 다변량 프로빗으로 모델링, (3) 응답자 수준 공변량을 잠재 상태와 연결, (4) 효율적인 MCMC 구현을 위한 파라미터 확장, (5) 실증적 검증을 통한 적용 가능성 제시 등 다섯 가지 주요 기여를 제공한다. 제한점으로는 모델 복잡도가 높아 사전 설정에 민감할 수 있고, 대규모 데이터에서 MCMC 수렴이 느릴 수 있다는 점이 있다. 향후 연구에서는 변분 추정법이나 스파스 구조 사전 등을 도입해 확장성을 높일 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기