쌍별 중복성 측정으로 시계열 군집화
초록
본 논문은 시스템의 동역학을 소수의 특성 모드로 요약하고, 각 시계열 간의 쌍별 중복성 지표를 이용해 서로 연관된 변수들을 그룹화하는 새로운 방법을 제안한다. 이 접근법은 뇌의 휴식 상태 fMRI 데이터와 HeLa 세포의 유전자 발현 데이터를 대상으로 검증되었으며, 기존 방법보다 적은 차원에서 효과적으로 상관 구조를 포착한다.
상세 분석
이 연구는 두 가지 핵심 가정을 전제로 한다. 첫째, 복잡계의 동역학은 실제로는 제한된 수의 고유 모드(특징 벡터)로 충분히 설명될 수 있다는 점이다. 이를 위해 저자들은 주성분 분석(PCA)이나 독립 성분 분석(ICA)과 유사한 차원 축소 기법을 적용해 시계열 데이터 행렬을 저차원 공간에 투사한다. 두 번째 가정은 개별 시계열 간의 쌍별 중복성(measure of redundancy)만으로도 다변량 시스템 내의 상호 의존성을 파악할 수 있다는 것이다. 중복성은 정보 이론적 관점에서 정의되며, 두 변수의 과거 정보가 현재 상태를 예측하는 데 기여하는 정도를 정량화한다. 구체적으로, 저자들은 선형 회귀 모델을 기반으로 각 시계열의 과거값을 독립 변수로, 시스템 전체의 주요 모드(예: 첫 번째 몇 개의 주성분)를 종속 변수로 설정한다. 그런 다음, 두 시계열을 동시에 포함했을 때의 설명력 증가량을 측정해 ‘중복성 점수’를 산출한다. 이 점수가 양수이면 두 시계열이 동일한 정보를 제공한다는 의미이며, 음수이면 서로 보완적인 정보를 제공한다는 해석이 가능하다.
중복성 행렬을 구축한 뒤, 저자들은 이를 그래프 이론에 적용한다. 각 시계열을 노드로, 중복성 점수를 가중치로 하는 무방향 그래프를 형성하고, 이후 커뮤니티 탐지 알고리즘(예: Louvain 방법)을 이용해 노드들을 클러스터링한다. 이렇게 얻어진 클러스터는 시스템 내에서 기능적으로 연관된 변수들의 집합으로 해석된다.
실험에서는 인간 휴식 상태 fMRI 데이터(뇌의 90개 영역)와 HeLa 세포의 1,000여 개 유전자 발현 시계열을 대상으로 분석하였다. fMRI 데이터에서는 전통적인 기능적 연결성 분석과 비교했을 때, 제안된 방법이 전두엽·후두엽·기저핵 등 뇌의 알려진 기능적 네트워크를 더 명확히 구분해 주었으며, 특히 저차원 모드(첫 3~5개의 주성분)만을 사용했음에도 불구하고 높은 재현성을 보였다. 유전자 발현 데이터에서는 세포 주기, DNA 복구, 대사 경로 등 생물학적으로 의미 있는 유전자 그룹이 자동으로 추출되었으며, 기존의 상관 기반 클러스터링보다 잡음에 강한 특성을 나타냈다.
이 방법의 장점은 (1) 차원 축소를 통해 계산 복잡도를 크게 낮출 수 있다는 점, (2) 쌍별 중복성만을 사용함으로써 고차원 상호작용을 직접 모델링할 필요가 없다는 점, (3) 그래프 기반 커뮤니티 탐지를 통해 직관적인 그룹 구조를 얻을 수 있다는 점이다. 반면, 선형 회귀 기반 중복성 정의는 비선형 관계를 충분히 포착하지 못할 수 있으며, 모드 선택(몇 개의 주성분을 사용할지)과 중복성 임계값 설정에 따라 결과가 민감하게 변할 가능성이 있다. 향후 연구에서는 비선형 모델(예: 커널 회귀)이나 다중 스케일 모드 선택 전략을 도입해 이러한 한계를 보완할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기