R 패키지 TDA 입문: 위상 데이터 분석을 위한 실용 가이드

본 논문은 R 패키지 TDA의 주요 기능을 소개한다. 거리 함수, 거리‑to‑measure, k‑NN·커널 밀도 추정기, 커널 거리 등 데이터에서 위상 정보를 추출하는 함수들을 구현하고, 이들 함수의 서브레벨(또는 슈퍼레벨) 집합에 대한 지속성 동형성을 gridDiag와 ripsDiag 함수를 통해 계산한다. 부트스트랩 기반 신뢰구간과 통계적 검정, 그리고 밀도 기반 클러스터링·클러스터 트리 시각화까지 포괄적인 워크플로우를 제공한다.

저자: Brittany Terese Fasy, Jisu Kim, Fabrizio Lecci

본 논문은 R 언어용 위상 데이터 분석 패키지 TDA 의 설계와 활용 방법을 체계적으로 제시한다. 서론에서는 위상 데이터 분석(TDA)이 점군으로부터 저차원 매니폴드의 위상적 특성을 추정하는 일련의 방법론임을 강조하고, 최근 GUDHI, Dionysus, PHAT 등 C++ 기반 라이브러리의 고성능 알고리즘을 R 인터페이스로 제공하는 필요성을 제시한다. 2장에서는 TDA 패키지가 제공하는 다섯 가지 기본 함수들을 상세히 설명한다. 거리 함수 distFct 는 각 격자 점 y 에 대해 min‖x−y‖ 을 계산해 거리 지형을 만든다. 거리‑to‑measure dtm 은 확률 측도 P 에 대한 거리의 평균 제곱근 형태로, 샘플링 잡음에 대한 강인성을 제공한다. k‑Nearest Neighbor 밀도 knnDE 는 k 번째 이웃 거리 r_k 를 이용해 k 개의 점을 포함하는 볼륨을 추정함으로써 지역 밀도를 측정한다. 가우시안 커널 밀도 kde 는 전통적인 커널 평활화 방식이며, 커널 거리 kernelDist 는 두 점 집합 간의 평균 커널 값 차이를 거리처럼 해석한다. 모든 함수는 격자 Grid 위에서 벡터화된 연산으로 빠르게 계산되며, 2차원 예시(단위 원 위에 400점 샘플링)와 함께 persp 함수를 이용한 시각화 예제가 제공된다. 2.1절에서는 부트스트랩을 이용한 신뢰구간 구축 절차를 제시한다. 원본 데이터 X 로부터 재표본 X* 을 생성하고, 각 재표본에 대해 밀도 추정값을 계산한 뒤, 최대 절대 편차 θ* 의 경험분포를 구한다. 이를 통해 (1‑α) 신뢰밴드

R 패키지 TDA 입문: 위상 데이터 분석을 위한 실용 가이드

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기