범주형 변수의 공분산 및 주성분 분석

범주형 변수의 공분산을 정의하기 위해 정규 단순체 표현을 사용한다. 이 방법은 Gini가 제시한 분산 정의를 따르며, 동시에 여러 방정식의 해로 공분산을 구한다. 계산된 결과는 테스트 데이터에 대해 합리적인 값을 제공한다. 또한 정규 단순체 표현을 이용한 주성분 분석(RS‑PCA) 방법을 제안하여 주성분을 쉽게 해석할 수 있게 한다. 제안된 방법은 1990

범주형 변수의 공분산 및 주성분 분석

초록

범주형 변수의 공분산을 정의하기 위해 정규 단순체 표현을 사용한다. 이 방법은 Gini가 제시한 분산 정의를 따르며, 동시에 여러 방정식의 해로 공분산을 구한다. 계산된 결과는 테스트 데이터에 대해 합리적인 값을 제공한다. 또한 정규 단순체 표현을 이용한 주성분 분석(RS‑PCA) 방법을 제안하여 주성분을 쉽게 해석할 수 있게 한다. 제안된 방법은 1990년 미국 인구조사 데이터의 범주형 변수 선택 문제에 적용되었으며, 변수 선택에 적절한 기준을 제공한다.

상세 요약

이 논문은 범주형 데이터에 대한 통계적 분석에서 오래된 문제인 “공분산 정의”와 “주성분 분석(PCA)”을 동시에 해결하려는 시도를 제시한다. 전통적으로 공분산은 연속형 변수에만 의미가 있다고 여겨졌으며, 범주형 변수에 대해서는 교차표 기반의 χ² 통계량이나 Cramér’s V와 같은 지표가 주로 사용되었다. 그러나 이러한 지표들은 선형 관계를 직접적으로 측정하지 못하고, 차원 축소를 위한 공분산 행렬 구축에도 한계가 있다.

논문은 먼저 Gini가 제안한 분산 정의를 확장한다. Gini 분산은 각 관측값을 평균값과의 거리의 제곱 평균으로 정의하는데, 여기서 “거리” 개념을 범주형 변수에 적용하기 위해 정규 단순체(simplex) 좌표계를 도입한다. 정규 단순체는 k개의 범주를 k‑1 차원의 정규화된 벡터 집합으로 매핑하여, 서로 다른 범주 간의 거리를 동일하게 1로 설정한다. 이렇게 하면 범주형 변수도 유클리드 공간에서 벡터처럼 다룰 수 있게 되며, 연속형 변수와 동일한 형태의 공분산 식을 유도할 수 있다.

공분산을 구하기 위해서는 각 변수의 단순체 좌표를 구하고, 두 변수 간의 내적을 평균값을 기준으로 계산한다. 이 과정에서 동시에 여러 방정식이 발생하는데, 저자는 이를 선형 연립방정식 형태로 정리하고, 가우스 소거법 등을 이용해 해를 구한다. 실험에서는 인공적으로 만든 테스트 데이터와 실제 1990년 미국 인구조사(USCensus1990) 데이터에 적용해, 기존 방법(예: 다중 대응 분석, 다변량 교차표)보다 더 직관적이고 해석 가능한 공분산 값을 얻었다는 점을 강조한다.

다음으로 제안된 RS‑PCA는 위에서 정의한 공분산 행렬을 기반으로 고유값 분해를 수행한다. 정규 단순체 표현 덕분에 각 주성분은 “범주 간 평균 거리”와 “범주 간 변동성”을 동시에 반영한다. 특히, 주성분 벡터의 각 성분은 특정 범주에 대한 기여도를 직접적으로 나타내므로, 기존 PCA에서 발생하는 “성분 해석의 어려움”을 크게 완화한다. 논문은 USCensus1990 데이터에 RS‑PCA를 적용해, 인구 규모, 교육 수준, 직업 종류 등 주요 변수들이 몇 개의 주성분에 압축될 수 있음을 시각화하고, 이를 통해 변수 선택 기준을 제시한다.

이 연구의 강점은 (1) 범주형 변수를 연속형 변수와 동일한 수학적 틀로 통합함으로써 공분산·PCA를 일관되게 적용할 수 있게 한 점, (2) 정규 단순체를 이용해 범주 간 거리와 변동성을 균등하게 처리함으로써 해석 가능성을 높인 점이다. 반면, 몇 가지 한계도 존재한다. 첫째, 정규 단순체 매핑은 범주 수가 매우 많을 경우 차원(=k‑1)이 급격히 증가해 계산 복잡도가 높아진다. 둘째, 범주 간 실제 의미적 거리(예: 사회적 계층 차이)가 동일하다고 가정하는데, 이는 실제 데이터에서 부적절할 수 있다. 셋째, 공분산 행렬이 양정치가 보장되지 않을 가능성이 있어, 고유값이 음수가 되는 경우 추가적인 정규화가 필요할 수 있다.

실제 적용 사례로는 설문 조사 데이터, 마케팅 세분화, 의료 진단 코드 등 범주형 변수가 다수인 분야에서 변수 선택·차원 축소에 활용될 수 있다. 특히, 변수 선택 단계에서 RS‑PCA가 제공하는 “각 변수의 주성분 기여도”는 전통적인 카이제곱 검정이나 정보 이득 기반 방법보다 더 직관적인 의사결정을 가능하게 한다. 향후 연구에서는 (1) 범주 간 가중치를 학습하는 확장 모델, (2) 고차원 단순체를 효율히 압축하는 차원 축소 기법, (3) 연속형·범주형 혼합 데이터에 대한 통합 공분산 정의 등을 탐색하면 본 방법의 적용 범위가 크게 확대될 것으로 기대된다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...