기하학적 데이터 분석: 대응분석에서 구조화 데이터까지
초록
레우와 루아네의 저서는 대응분석을 기하학적 시각으로 재조명하고, 유클리드 분류·주성분·다중 대응·구조화 데이터 분석까지 포괄적으로 다룬다. 개념적 프레임워크와 통계적 추론을 연결하며, 실예와 연습문제로 실용성을 높였다.
상세 분석
본 리뷰는 레우와 루아네의 『Geometric Data Analysis』가 통계학과 기하학을 통합한 독창적인 프레임워크를 제시한다는 점을 강조한다. 저자들은 ‘측정 대 변수(Measure vs Variable) 이중성’이라는 개념을 중심으로, 행·열 공간의 쌍대성을 통해 대응분석을 정의하고, χ² 거리와 유클리드 거리, 그리고 초거리(ultrametric)라는 세 가지 메트릭을 동시에 고려한다. 특히, 전통적인 확률론적 접근이 아닌 ‘기술적 서술이 우선’이라는 철학을 채택해, 표본 크기에 의존하지 않는 상대 빈도 기반 기술통계와, 표본 크기를 반영하는 검정통계(전통적 유의성 검정, 베이지안 추론 등)를 명확히 구분한다.
책은 9개의 장으로 구성되며, 각 장마다 이론적 설명 뒤에 연습문제와 해답을 제공한다는 점에서 교육용 교재로서의 가치가 높다. 제2장은 대응분석의 기초를 직관적으로 풀어내며, 행·열의 마진을 기준으로 한 전이(transition) 표기법을 도입해 행렬보다 가독성이 높은 수식 체계를 제시한다. 제3장은 유클리드 구름(cloud) 분석과 스펙트럴 분해를 통해 초타원(ellipsoid) 형태의 집중도를 설명하고, 최소 분산 기준(워드 방법)의 계층적 군집화를 ‘유클리드 분류’라 명명한다. 여기서 최근접 이웃 체인 알고리즘의 부재와 초거리(metric) 논의의 부족을 지적하지만, 해당 내용은 별도 문헌(예: Murtagh 2005)에서 보완 가능함을 언급한다.
제4장은 주성분 분석(PCA)을 대응분석과의 연계 속에서 재해석하며, 차원 축소와 해석 가능성을 동시에 확보한다. 제5장은 다중 대응분석(MCA)을 설문조사 데이터에 적용하는 사례를 통해, 버트 테이블, 활성 질문 선택, 희소 모달리티 처리 등 실무적 문제를 상세히 다룬다. 제6장은 구조화 데이터 분석을 다루며, ANOVA, MANOVA, 회귀분석을 대응분석 프레임에 ‘접목’시켜 복합 설계와 교차 구조를 모델링한다. 특히, 농구 선수 영상 데이터와 같은 비전 기반 사례를 통해 고성능 예측 모델링 가능성을 제시한다.
제7장은 안정성 분석을 중심으로, 부트스트래핑, 기능적 분석, 그리고 Escofier‑Le Roux 방식의 구름 교란 기법을 비교한다. 고유값 안정성, 점 삭제·변수 제거에 따른 결과 변동을 실증적으로 보여준다. 제8장은 ‘귀납적 데이터 분석(Inductive Data Analysis)’이라는 통합적 접근을 제안하며, 기술통계와 추론통계의 역할을 명확히 구분하고, 베이지안·빈도주의·조합론적 검정 등을 기하학적 관점에서 설명한다. 마지막 제9장은 의료, 정치, 교육 분야의 대규모 사례연구를 통해 이론이 실제에 어떻게 적용되는지를 종합적으로 보여준다.
전체적으로 저자들은 행·열 전이 표기와 아인슈타인 텐서·디랙 기호 등 고급 수학적 도구를 적절히 활용하면서도, 초보자도 따라올 수 있는 단계적 설명과 풍부한 실습을 제공한다. 또한, 부르디외의 사회장(space) 개념을 데이터 공간에 매핑하는 사회과학적 응용을 강조함으로써, 기하학적 데이터 분석이 인간 행동과 사회 구조를 이해하는 데 어떻게 기여할 수 있는지를 설득력 있게 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기