색칠과 막대 부수기 무작위 분포와 이질적 군집화
초록
우리는 먼저 디리클레 프로세스와 그 밀접한 변형들에 관한 몇몇 확률론적 결과들을 검토하고, 이 결과들이 통계 모델링 및 분석에 미치는 함의를 강조한다. 이어서 군집이 서로 다른 ‘색깔’(colour)을 갖는 단순 혼합 모델 클래스를 도입한다. 같은 색깔 안에서는 통계적 특성이 일정하지만, 색깔 간에는 차이가 있다. 따라서 군집 정체성은 색깔 내부에서는 교환 가능하지만 색깔 간에는 교환 불가능하다. 제안된 모델의 기본 형태는 익숙한 디리클레 프로세스의 변형이며, 디리클레 프로세스와 연관된 표준 모델링 및 계산 기법을 대부분 그대로 적용할 수 있음을 확인한다. 이 방법론은 유전자 발현 프로파일의 부분‑모수적 군집화에 적용하여 사례를 제시한다.
상세 분석
이 논문은 베이지안 비모수 통계의 핵심 도구인 디리클레 프로세스(DP)를 출발점으로 삼아, 기존 DP가 갖는 “군집은 완전히 교환 가능하다”는 가정을 완화한다는 점에서 학술적 의의가 크다. 전통적인 DP 혼합 모델에서는 데이터가 무한히 많은 잠재 군집 중 하나에 할당되며, 각 군집은 동일한 사전 분포를 공유한다. 그러나 실제 과학 데이터, 특히 유전체 데이터와 같이 여러 생물학적 조건이나 실험적 배경에 따라 군집의 특성이 체계적으로 달라지는 경우가 빈번하다. 저자들은 이러한 상황을 ‘색깔(colour)’이라는 메타‑군집 개념으로 모델링한다. 색깔은 일종의 상위 레벨의 카테고리이며, 같은 색깔에 속한 하위 군집들은 동일한 파라미터(예: 평균·분산) 구조를 공유한다. 반대로 색깔 간에는 파라미터가 독립적으로 달라질 수 있다. 이 구조는 “색깔 내부에서는 교환 가능하지만 색깔 간에는 교환 불가능”하다는 교환가능성(exchangeability)의 부분적 제한을 도입한다는 의미이다.
수학적으로는 색깔별 베타-디리클레 과정 혹은 계층적 디리클레 프로세스(HDP)의 변형으로 볼 수 있다. 기본 DP의 집중도(concentration) 파라미터와 베이스 측정(base measure)을 색깔별로 다르게 설정함으로써, 색깔마다 서로 다른 군집 생성 경향성을 부여한다. 또한 색깔 간에 공유되는 하이퍼파라미터를 도입하면, 전체 모델이 과도하게 복잡해지는 것을 방지하면서도 데이터가 보여주는 이질성을 충분히 포착한다.
계산 측면에서는 기존의 골든 스테이트 샘플러(gibbs sampler)나 스틱‑브레이킹(stick‑breaking) 표현을 그대로 활용할 수 있다. 저자는 스틱‑브레이킹 과정을 색깔별로 독립적으로 수행하고, 각 색깔 내부에서의 군집 할당을 기존의 중국 레스토랑 프로세스(CRP)와 유사한 방식으로 샘플링한다. 이렇게 하면 알고리즘의 복잡도는 색깔 수에 비례적으로 증가하지만, 색깔이 비교적 적은 경우(예: 몇 개의 생물학적 조건)에는 실용적인 실행 시간이 확보된다.
실제 적용 사례로 제시된 유전자 발현 프로파일의 부분‑모수적 군집화는, 전통적인 K‑means나 완전 DP 혼합 모델이 놓치기 쉬운 “조건별 발현 패턴”을 효과적으로 구분한다는 점에서 설득력을 갖는다. 색깔을 실험 배치나 조직 종류와 같은 사전 지식에 매핑함으로써, 모델은 사전 정보와 데이터 기반 학습을 동시에 활용한다. 결과적으로 군집 해석이 더 직관적이고, 생물학적 의미 부여가 용이해진다.
이 논문의 주요 공헌은 (1) 색깔이라는 메타‑구조를 도입해 교환가능성의 범위를 제한함으로써 이질적 군집을 자연스럽게 모델링한 점, (2) 기존 DP 기반 알고리즘을 최소한의 수정만으로 확장하여 실용적인 계산 방법을 제공한 점, (3) 유전자 발현 데이터와 같은 실제 복합 데이터에 적용해 의미 있는 결과를 도출한 점이다. 앞으로 색깔 개념을 더 일반화해 다중 레벨의 계층적 구조나 시간‑공간적 변이를 포함하는 모델로 확장한다면, 베이지안 비모수 방법론의 적용 범위가 크게 넓어질 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기