하이퍼그래프 기반 클러스터링과 클러스터 시스템 차원

초록

본 논문은 단일 거리 대신 여러 거리 함수를 동시에 고려하는 클러스터링 방법을 제안한다. 서로 다른 메트릭에 의해 형성된 클러스터들의 포함 관계를 부분 순서 그래프로 나타내고, 이 그래프 위에 하이퍼그래프 구조를 구축한다. 하이퍼엣지의 차원을 정의하는 두 가지 방식을 제시하며, 다차원 p‑adic 공간에서는 두 정의가 모두 p‑adic 파라미터의 개수와 일치함을 증명한다. 마지막으로, 생물학적 계통수 구축에 이 방법을 적용해 유전적 다양성의 원천 수를 하이퍼엣지 차원으로 해석한다.

상세 분석

논문은 전통적인 계층적 클러스터링이 하나의 거리 함수에 의존해 트리 형태의 덴드로그램을 만든다는 점을 출발점으로 삼는다. 그러나 실제 데이터 분석에서는 서로 다른 스케일이나 특성을 포착하기 위해 여러 메트릭을 동시에 적용하고자 하는 경우가 빈번히 발생한다. 저자들은 이러한 상황을 “다중 메트릭 클러스터링”이라 정의하고, 각 메트릭이 생성하는 클러스터 집합을 각각 부분 순서 집합(partially ordered set, poset)으로 본다. 서로 다른 메트릭에 의해 얻어진 클러스터들은 겹치거나 포함 관계를 형성하지만, 전체적으로는 단일 트리로 표현될 수 없는 복합적인 구조를 만든다. 이를 시각화하기 위해 저자들은 기본적인 포스 그래프를 구축하고, 그 위에 하이퍼그래프를 겹쳐 놓는다. 여기서 하이퍼엣지는 여러 클러스터가 동시에 만족하는 공통 부분집합을 나타내며, 하이퍼엣지의 차원은 해당 공통 부분집합이 몇 개의 독립적인 메트릭 파라미터에 의해 정의되는지를 측정한다.

차원 정의는 두 가지로 제시된다. 첫 번째는 “포함 사슬 길이” 방식으로, 하이퍼엣지를 포함하는 최소 사슬(chain)의 길이를 차원으로 본다. 두 번째는 “독립 파라미터 수” 방식으로, 해당 하이퍼엣지를 완전히 기술하기 위해 필요한 메트릭 파라미터의 최소 개수를 차원으로 정의한다. 두 정의는 일반적인 경우에는 서로 다를 수 있지만, 저자들은 다차원 p‑adic 공간—즉, 각 차원마다 서로 다른 p‑adic 절대값을 부여한 경우—에서는 두 정의가 동일하게 p‑adic 파라미터의 수와 일치함을 증명한다. 이는 p‑adic 메트릭이 서로 독립적인 스케일을 제공하면서도, 클러스터링 구조가 각 스케일에 대해 완전하게 분리될 수 있음을 의미한다.

생물학적 응용 부분에서는 유전적 데이터에 여러 거리 함수를 적용한다. 예를 들어, 염기서열 차이, 단백질 구조 유사도, 발현량 차이 등을 각각 별도의 메트릭으로 사용한다. 이때 형성된 하이퍼그래프는 전통적인 계통수보다 복잡한 네트워크를 제공하며, 특정 하이퍼엣지의 차원은 해당 유전적 특징이 몇 개의 독립적인 진화적 압력(예: 환경 적응, 유전자 흐름, 돌연변이 등)에 의해 형성되었는지를 정량화한다. 따라서 차원은 “유전적 다양성의 원천 수”를 직관적으로 나타내는 지표가 된다.

이 논문은 다중 메트릭 클러스터링을 수학적으로 정형화하고, 하이퍼그래프와 차원 개념을 도입함으로써 기존 트리 기반 방법이 포착하지 못한 복합적인 관계를 드러낸다. 특히 p‑adic 사례를 통해 차원 정의의 일관성을 보이고, 생물학적 데이터에 적용함으로써 실용적 가치를 입증한다. 향후 연구에서는 하이퍼엣지 차원을 기반으로 한 클러스터링 알고리즘의 효율성 분석, 다른 비유클리드 메트릭(예: 하이퍼볼릭 거리) 적용, 그리고 대규모 유전체 데이터에 대한 확장 가능성 등을 탐구할 여지가 크다.