계층적 데이터를 위한 트리 구조 스틱 브레이킹 과정

초록

본 논문은 데이터의 숨겨진 계층 구조를 비모수적으로 모델링하기 위해 무한 폭·깊이를 갖는 트리형 스틱 브레이킹 과정을 제안한다. 데이터는 트리의 어느 노드에도 할당될 수 있으며, 무한 교환 가능성을 유지한다. 마크오프 체인 몬테카를로와 슬라이스 샘플링을 이용해 사후 분포를 효율적으로 추정하고, 이미지 클러스터링과 텍스트 토픽 모델링에 적용한다.

상세 요약

이 연구는 기존의 디리클레 과정(DP)이나 히에라키컬 디리클레 프로세스(HDP)와 달리, 트리 구조 자체를 확률적으로 생성하는 새로운 비모수 사전(prior)을 도입한다. 핵심 아이디어는 ‘스틱 브레이킹(stick breaking)’을 두 단계로 중첩시켜, 첫 번째 단계는 루트에서 각 자식 노드로 갈라지는 가지의 비율을 정의하고, 두 번째 단계는 각 가지 내부에서 다시 하위 가지로 분할되는 비율을 정의한다. 이렇게 하면 트리의 폭(자식 수)과 깊이(계층 수)가 사전에 제한되지 않으며, 데이터 포인트는 트리의 임의의 노드에 할당될 수 있다.

무한 교환 가능성(infinite exchangeability)을 보장하기 위해 저자들은 ‘패밀리 오브 파티션(Family of Partitions)’ 관점을 사용한다. 각 데이터는 트리 경로에 따라 일련의 조건부 확률을 갖게 되며, 이는 마치 진화적 확산(evolutionary diffusion) 과정처럼 상위 노드에서 하위 노드로 정보가 전파되는 구조와 일치한다. 따라서 트리의 각 노드는 하나의 혼합 컴포넌트 역할을 수행하고, 상위-하위 관계는 컴포넌트 간 의존성을 자연스럽게 모델링한다.

베이지안 추론을 위해 저자들은 슬라이스 샘플링(slice sampling) 기반 MCMC 알고리즘을 설계한다. 스틱 브레이킹의 무한 차원을 다루기 위해 ‘트렁케이션(truncation)’ 없이도 샘플링이 가능하도록, 각 데이터 포인트에 대한 ‘슬라이스 변수’를 도입해 실제로 활성화되는 트리 부분만을 동적으로 탐색한다. 이 방법은 기존의 트리 구조 베이지안 모델에서 흔히 발생하는 높은 차원의 메모리 부담을 크게 완화한다.

실험에서는 두 가지 도메인, 즉 이미지 데이터의 계층적 클러스터링과 텍스트 코퍼스의 토픽 모델링에 모델을 적용한다. 이미지 실험에서는 트리의 상위 노드가 일반적인 형태(예: 동물, 차량)를, 하위 노드가 세부적인 변형(예: 고양이 종류, 자동차 모델)을 포착한다는 것을 확인하였다. 텍스트 실험에서는 상위 토픽이 넓은 주제(예: 정치, 과학)를, 하위 토픽이 구체적인 서브주제(예: 선거 정책, 양자 물리)로 분화되는 구조를 발견하였다. 전반적으로 제안된 트리형 스틱 브레이킹 모델은 기존 HDP 대비 더 풍부한 계층적 의존성을 포착하면서도 계산 효율성을 유지한다는 장점을 보인다.

초록

상세 요약

📜 논문 원문 (영문)