라쏘 패널티 BIC로 혼합 모델 선택 최적화

초록

본 논문은 혼합 모델 기반 군집화·분류에서 모델 복잡도를 조절하기 위해 기존 BIC의 한계를 보완하는 라쏘(LASSO) 패널티를 적용한 새로운 기준인 LPBIC를 제안한다. 특히 혼합 요인 분석(MFA) 확장 모델에 적용해 군집 수와 잠재 요인 차원을 동시에 선택하도록 설계했으며, 시뮬레이션 및 실제 데이터 실험을 통해 BIC 대비 과소·과대 선택을 모두 완화하고 전반적인 모델 적합도를 향상시킴을 입증한다.

상세 분석

이 연구는 고차원 데이터에서 혼합 모델을 이용한 군집화·분류 시, 모델 선택 기준으로 널리 쓰이는 Bayesian Information Criterion(BIC)의 두드러진 약점을 정확히 짚어낸다. 첫째, BIC는 자유도에 대한 벌칙이 상대적으로 약해 차원 수가 늘어날수록 과다한 군집 수를 선택하는 경향이 있다. 둘째, 차원이 높아질수록 로그우도 자체가 급격히 감소하면서 BIC가 군집 수를 과소추정하는 현상이 발생한다. 이러한 문제는 특히 혼합 요인 분석(MFA)과 같은 고차원 잠재 변수 모델에서 심각하게 나타난다.

논문은 이러한 한계를 극복하기 위해 라쏘(LASSO) 패널티를 BIC에 결합한 LPBIC(LASSO‑Penalized BIC)를 도입한다. 라쏘는 회귀 계수를 L1‑norm으로 제약해 불필요한 파라미터를 0으로 수축시키는 특성을 갖는데, 이를 혼합 모델의 군집 비중(π_k)과 요인 적재 행렬(Λ_k)에 적용한다. 구체적으로, 로그우도에 ‑λ∑|θ_j| 형태의 라쏘 항을 추가하고, 이 항을 BIC의 벌칙 항에 통합함으로써 모델 복잡도에 대한 보다 강력한 억제를 구현한다.

LPBIC의 수식적 유도는 EM 알고리즘의 M‑step에서 라쏘 패널티를 포함한 최적화 문제로 변형된다. 여기서 라그랑주 승수를 이용해 파라미터 업데이트를 닫힌 형태로 도출하거나, 좌표 하강법을 적용해 수치적으로 해결한다. 중요한 점은 라쏘 패널티가 군집 비중을 직접 0으로 만들 수 있어, 불필요한 군집을 자동으로 제거한다는 점이다. 이는 기존 BIC가 군집 수를 감소시키기 위해 사후적인 병합 절차를 필요로 하는 것과 대조된다.

이론적 측면에서 저자는 LPBIC가 대수적 일관성(algebraic consistency)을 만족한다는 증명을 제공한다. 즉, 표본 크기가 무한히 커질 때 실제 모델을 정확히 선택할 확률이 1에 수렴한다. 또한, 라쏘 패널티의 강도 λ를 데이터에 맞게 교차 검증이나 BIC‑type 기준으로 선택하는 절차를 제시해 과도한 패널티로 인한 과소 적합을 방지한다.

실험에서는 혼합 요인 분석의 두 가지 변형, 즉 고정 요인 수를 갖는 MFA와 요인 수가 군집마다 다른 변형(MFA‑V)을 대상으로 LPBIC와 전통 BIC를 비교한다. 시뮬레이션에서는 차원(d)과 군집 수(K)를 다양하게 변동시켜, 고차원(d≥50) 상황에서 BIC가 군집 수를 크게 과소추정하는 반면, LPBIC는 실제 K에 근접한 값을 선택한다. 또한, 라쏘 패널티가 요인 적재 행렬의 스파시티를 촉진해 해석 가능한 요인 구조를 제공한다는 부가적인 장점도 확인된다.

실제 데이터 사례로는 유전자 발현 데이터와 이미지 피처 데이터가 사용되었다. 고차원 유전자 데이터에서는 BIC가 2~~3개의 군집만을 제시했으나, LPBIC는 5~~6개의 생물학적으로 의미 있는 군집을 탐지했고, 각 군집 내 요인 적재가 명확히 구분되었다. 이미지 데이터에서는 라쏘에 의해 불필요한 요인들이 제거되어 차원 축소 효율이 크게 향상되었으며, 군집 정확도도 BIC 대비 8% 이상 개선되었다.

전체적으로 LPBIC는 BIC가 갖는 차원 의존적 편향을 라쏘 패널티를 통해 보정함으로써, 모델 선택의 안정성과 해석 가능성을 동시에 높인다. 다만, 라쏘 패널티의 λ 선택이 결과에 민감하게 작용할 수 있다는 점과, 비선형 패널티(예: SCAD, MCP)와의 비교 연구가 향후 과제로 남는다.