조건부 평균을 활용한 분산 분해와 실증 분석

초록

우리는 정성적 특성에 따라 달라지는 수치형 변수의 분산을 분석하는 새로운 접근법을 두 가지 데이터 집합에 적용하였다. 이 방법은 정성적 특성에 대한 조건부 평균의 차이를 이용해 서로 직교하는 성분들의 합으로 분산을 표현한다. 분산 표현은 특성을 고려하는 순서에 따라 달라지므로, 우리는 자연스러운 순서를 제시하는 알고리즘을 제안한다. 첫 번째 데이터는 30문항의 객관식 시험에서 학생들의 입학 점수를 다루며, 각 문항에 대한 정답·오답이라는 이분적 정성적 특성을 사용한다. 두 번째 데이터는 이탈리아 대학 졸업생들의 학위 취득 지연 시간을 분석하며, 성별·이전 교육·근무 조건·부모 교육 수준·전공 분야 등 일곱 가지 정성적 특성을 고려한다.

상세 요약

본 논문은 정성적(범주형) 변수들이 수치형 변수의 변동성을 어떻게 설명할 수 있는지를 새로운 수학적 틀 안에서 탐구한다. 전통적으로 분산 분석(ANOVA)이나 회귀분석에서는 각 범주가 평균에 미치는 영향을 평균 차이 혹은 회귀계수 형태로 제시한다. 그러나 이러한 방법은 종종 상호작용 효과를 별도로 모델링해야 하며, 다중 공선성이나 순서 의존성 문제에 직면한다. 저자들은 이러한 한계를 극복하기 위해 ‘조건부 평균 차이’를 이용한 직교 성분 분해를 제안한다. 구체적으로, 전체 평균에서 시작해 하나씩 정성적 특성을 추가하면서 각 단계에서의 조건부 평균과 이전 단계 평균의 차이를 계산한다. 이 차이는 해당 특성이 설명하는 분산의 부분을 정확히 나타내며, 서로 직교하기 때문에 합산하면 전체 분산과 일치한다. 중요한 점은 이 분해 과정이 특성을 고려하는 순서에 따라 결과가 달라진다는 것이다. 따라서 저자들은 ‘자연스러운 순서’를 찾기 위한 탐욕적 알고리즘을 설계했으며, 이는 각 단계에서 가장 큰 분산 감소를 가져오는 특성을 선택한다. 첫 번째 사례에서는 30개의 객관식 문항 각각이 ‘정답/오답’이라는 이분형 변수로 취급되어, 어떤 문항이 전체 점수 변동에 가장 크게 기여하는지를 순차적으로 밝혀낼 수 있다. 두 번째 사례에서는 성별, 이전 교육, 근무 조건 등 일곱 가지 사회·인구학적 변수의 상대적 중요도를 동일한 방식으로 정량화한다. 이 접근법의 장점은 (1) 분산이 직교 성분들의 합으로 명확히 분해돼 해석이 직관적이다, (2) 변수 간 상호작용을 별도 모델링 없이도 순서에 따라 자연스럽게 포착한다, (3) 데이터가 이산적이거나 범주가 많아도 계산 복잡도가 크게 증가하지 않는다 점이다. 반면 한계로는 (가) 순서 선택이 탐욕적 알고리즘에 의존하므로 전역 최적을 보장하지 못한다, (나) 연속형 정성적 변수를 이산화해야 하는 전처리 과정이 필요할 수 있다, (다) 표본 크기가 작을 경우 조건부 평균 추정의 불안정성이 결과에 영향을 미칠 수 있다. 전반적으로 이 방법은 기존의 분산 분석을 보완하는 유용한 도구이며, 특히 교육 평가, 사회과학 조사 등에서 범주형 요인이 다수 존재할 때 적용 가치가 높다.

초록

상세 요약

📜 논문 원문 (영문)