클러스터별 대각 공분산과 그룹 변수 선택을 위한 패널티 모델 기반 클러스터링

본 논문은 고차원, 저표본 데이터, 특히 마이크로어레이와 같은 유전자 발현 데이터에서 클러스터링 분석 시 잡음 변수를 효과적으로 제거하고, 클러스터 구조를 정확히 파악하기 위한 새로운 통계적 방법을 제시한다. 기존의 패널티 기반 모델 기반 클러스터링은 모든 클러스터가 동일한 대각 공분산 행렬을 공유한다는 가정을 전제로 했으며, 이는 실제 생물학적 데이터에서 클러스터 간 분산 차이가 존재할 경우 부적절하다. 저자는 이러한 한계를 극복하기 위해 클러스터마다 별도의 대각 공분산 행렬 V_i=diag(σ²_{i1},…,σ²_{iK})를 허용하는 모델을 설계한다. 모델은 K 차원의 관측값 x_j (j=1,…,n)을 g개의 정규 혼합분포로 가정한다. 각 클러스터 i의 파라미터는 평균 μ_i와 공분산 V_i이며, 전체 파라미터 집합을 Θ라 한다. 최대 패널티 우도 추정(MPLE)을 위해 로그우도에 L1 패널티를 추가한다. 평균에 대한 패널티는 λ₁∑_{i,k}|μ_{ik}|이며, 이는 평균이 0에 가까워지면 해당 변수가 잡음 변수로 간주되어 0으로 수축된다. 분산에 대해서는 두 가지 정규화 스킴을 제시한다. 스킴 1은 직접 σ²_{ik}에 λ₂∑|σ²_{ik}|를 부과하고, 스킴 2는 로그 변환 후 λ₂∑|log σ²_{ik}|를 적용한다. 두 스킴 모두 양의 제약을 유지하면서 분산을 축소하거나 동일화하는 효과가 있다. EM 알고리즘을 이용해 파라미터를 추정한다. E‑step에서는 현재 파라미터 추정값 Θ^{(r)}에 기반해 책임도 τ_{ij}^{(r)}=P(z_{ij}=1|x_j,Θ^{(r)})를 계산한다. M‑step에서는 τ_{ij}^{(r)}를 가중치로 사용해 π_i, μ_i, σ²_i를 업데이트한다. 평균 업데이트 식은 소프트-쓰레시딩 형태로, μ̂_{ik}^{(r+1)}=S(∑_j τ_{ij}^{(r)} x_{jk}/∑_j τ_{ij}^{(r)}, λ₁/∑_j τ_{ij}^{(r)}) 로 표현된다. 여기서 S(a,γ)=sign(a)·max(|a|-γ,0)이다. 분산 업데이트는 스킴에 따라 다르며, 스킴 1에서는 σ̂²_{ik}^{(r+1)}=max( (∑_j τ_{ij}^{(r)}(x_{jk}-μ̂_{ik}^{(r+1)})²)/∑_j τ_{ij}^{(r)} - λ₂, ε ) 로, 스킴 2에서는 로그 변환 후 유사한 형태의 식이 적용된다. 이러한 업데이트는 패널티가 클수록 분산을 0에 가깝게 수축시키며, 결국 변수 전체가 잡음 변수로 판정될 경우 해당 차원의 모든 μ와 σ²가 0에 수렴한다. 또한, 변수들을 사전 정의된 그룹으로 묶어 전체 그룹을 선택하거나 제외할 수 있는 그룹 패널티를 도입한다. 평균 그룹화는 각 그룹 G_m에 대해 L2‑norm(μ_{G_m})에 L1‑penalty를 부과해, ‖μ_{G_m}‖₂가 λ₁보다 작으면 전체 그룹이 0이 된다. 분산 그룹화도 동일하게 적용되며, 이는 유전자 기능 경로와 같은 생물학적 정보를 직접 모델에 반영한다. 이러한 복합 절대 패널티(CAP)는 변수 선택 과정에서 해석 가능성을 크게 향상시킨다. 모델 선택은 Bayesian Information Criterion (BIC)를 사용한다. BIC는 -2·log우도 + (log n)·df 로 계산되며, 여기서 자유도(df)는 선택된 평균·분산 파라미터 수와 클러스터 수에 따라 달라진다. 저자는 격자 탐색을 통해 최적의 클러스터 수 g와 패널티 파라미터 λ₁, λ₂를 동시에 결정한다. 시뮬레이션 연구에서는 (i) 공통 대각 공분산 vs. 클러스터별 대각 공분산, (ii) 그룹화 여부, (iii) 두 정규화 스킴의 성능을 비교한다. 결과는 클러스터별 공분산을 허용한 모델이 특히 클러스터 간 평균 차이가 크면서 분산 차이도 존재하는 경우 정확도가 크게 향상됨을 보여준다. 그룹 패널티를 적용하면 사전에 정의된 그룹이 실제로 차별적인 정보를 담고 있을 때 변수 선택 정확도가 높아지고, 불필요한 변수는 효과적으로 배제된다. 실제 데이터 적용에서는 급성 백혈병 마이크로어레이 데이터(유전자 7,129개, 샘플 72개)를 사용해 두 종류의 백혈병(ALL vs. AML)을 구분한다. 먼저 전체 변수를 대상으로 공통 공분산 모델과 제안된 클러스터별 공분산 모델을 비교했으며, 후자는 BIC 기준으로 더 낮은 값을 보여 우수함을 확인했다. 이어서 Gene Ontology 기반으로 정의된 20개의 유전자 그룹을 적용해 그룹 패널티를 부여했을 때, 주요 면역 및 혈액 관련 경로가 선택되고, 다른 잡음 그룹은 제외되었다. 최종 클러스터링 결과는 기존 K‑means, PAM, 그리고 기존 패널티 모델보다 높은 정확도(정확도 0.94 vs. 0.85 수준)를 기록했으며, 선택된 변수들의 생물학적 해석도 일관되었다. 결론적으로, 이 논문은 (1) 클러스터마다 다른 대각 공분산을 허용해 고차원 데이터의 이질성을 반영, (2) 평균·분산 모두에 L1 정규화를 적용해 변수 선택과 파라미터 추정을 동시에 수행, (3) 그룹 패널티를 통해 도메인 지식을 통합하는 세 가지 혁신적인 접근을 제시한다. EM 기반 추정 절차가 명시적으로 제시되어 구현이 용이하고, BIC를 통한 모델 선택이 체계적이며, 다양한 시뮬레이션과 실제 데이터에서 실용성을 입증한다. 향후 연구에서는 비대각 공분산 구조, 베이지안 사전 결합, 그리고 대규모 데이터에 대한 병렬 EM 구현 등이 제안될 수 있다.

클러스터별 대각 공분산과 그룹 변수 선택을 위한 패널티 모델 기반 클러스터링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기