프랑스식 다변량 데이터 분석: 듀얼리티 다이어그램과 그 확장

본 논문은 프랑스 통계학자들이 개발한 “듀얼리티 다이어그램”이라는 통합 프레임워크를 소개한다. 이 프레임워크는 주성분 분석(PCA), 판별 분석(LDA), 대응 분석(CA) 등을 하나의 행렬 삼중항 (X, Q, D) 구조로 묶어 해석하고, 그래프와 공변량의 회귀까지 일반화한다. 또한 R 패키지 ade4 등 구현 사례와 역사적 배경을 제시한다.

저자: Susan Holmes

프랑스식 다변량 데이터 분석: 듀얼리티 다이어그램과 그 확장
본 논문은 프랑스 통계학 전통에서 발전한 “듀얼리티 다이어그램(duality diagram)”이라는 통합 프레임워크를 상세히 소개하고, 이를 통해 다변량 분석의 주요 방법들을 하나의 행렬 삼중항 (X, Q, D) 구조로 재구성한다. 저자는 먼저 데이터 행렬 X (관측 n × 변수 p)와 두 개의 대칭 양의 정부호 가중치 행렬 Q (p × p)와 D (n × n)를 정의한다. Q는 변수 공간 ℝ^p 에, D는 관측 공간 ℝ^n 에 각각 내적을 부여하는 메트릭이며, 이를 통해 두 개의 특성 연산자 V_Q = XᵀDX Q와 W_D = XQXᵀD 를 만든다. 이 두 연산자는 전이 관계에 있어, 하나의 고유값·고유벡터 분해가 다른 쪽에도 즉시 적용된다. 즉, 같은 고유값 λ₁≥λ₂≥…≥λ_r 가 두 연산자 모두에서 나타나며, 이를 이용해 주성분(Principal Axes)과 주축(Principal Components)을 동시에 도출한다. 수학적 성질을 정리하면, (1) rank X = rank Xᵀ = rank V_Q = rank W_D =r,  r ≤ min(n,p). (2) V_Q와 W_D는 각각 Q‑대칭, D‑대칭이며, Cholesky 분해 Q=HᵀH, D=KᵀK 후에 KXHᵀ 의 특이값 분해(KXHᵀ=U S Tᵀ)를 수행하면 Z=H⁻¹T, L=K⁻¹U와 같은 정규화된 고유벡터를 얻는다. (3) RV 계수 = tr(O₁ᵀO₂)/√

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기