다변량 회귀와 제약조건을 활용한 최대 상관 모델링
초록
본 논문은 전통적인 단일 종속변수 회귀를 넘어, 종속·독립 변수 모두 다중으로 구성된 선형 결합을 만들고, 그 상관을 최대화하는 방법을 제시한다. 제약조건을 직접 삽입할 수 있는 스프레드시트 기반 최적화 절차를 설명하고, 최소제곱법과 비교해 스케일 불변성과 해석 가능성을 강조한다. 교육청 데이터 예시를 통해 실제 적용 과정을 보여준다.
상세 분석
이 논문은 다변량 데이터 분석에서 종속변수와 독립변수를 각각 선형 조합한 두 개의 복합변수 X와 Y를 정의하고, 이들 사이의 피어슨 상관계수를 최대화하는 ‘Maximum Correlation Modelling(최대 상관 모델링)’을 제안한다. 전통적인 다중 회귀는 종속변수 하나에만 초점을 맞추어 변수 선택과 계수 추정이 비대칭적이며, 단위 변환에 민감한 반면, 제안된 방법은 CCA(Canonical Correlation Analysis)의 원리를 활용하면서도 가중치에 직접적인 부호·크기 제약을 부여할 수 있다.
핵심 기술은 스프레드시트의 Solver(또는 Optimiser) 기능을 이용한 제약조건 최적화이다. 데이터는 열마다 변수로 배치하고, 가중치를 저장할 행을 별도로 마련한다. X와 Y는 각각 가중치와 변수들의 가중합으로 계산되며, 별도 셀에 CORREL 함수를 이용해 상관계수를 구한다. Solver에 목표 셀(상관계수 최대화), 변화 셀(가중치), 그리고 ‘가중치 비음수’, ‘b₁≥b₂≥b₃’ 등 사용자가 정의한 제약식을 입력한다. 자동 스케일링과 수렴 파라미터 조정을 통해 전역 최적해에 근접하도록 한다.
논문은 또한 최소제곱법과의 비교를 통해 두 접근법의 차이를 명확히 한다. 최소제곱법은 특정 계수를 1로 고정(정규화)한 뒤 종속변수를 선택해 회귀를 수행한다. 이때 선택된 종속변수에 따라 모델이 달라지며, 단위 변환에 따라 결과가 변한다(스케일 의존성). 반면 최대 상관 모델링은 가중치를 전체적으로 조정해 X와 Y 사이의 상관을 직접 최적화하므로, 변수 단위가 바뀌어도 계수는 비례적으로 변할 뿐 모델 자체는 동일하게 유지된다(스케일 불변성).
실제 적용 사례로 96개 영국 교육청의 시험 성적(y₁, y₂, y₃)과 6개의 환경·사회경제 변수(x₁~x₆)를 사용한다. 목표는 y₁·b₁ + y₂·b₂ + y₃·b₃ 형태의 종합 성적 지표 Y를 만들고, b₁≥b₂≥b₃라는 제약을 부여한다. Solver를 통해 얻은 최적 가중치는
Y = 2.871·y₁ + 1·y₂ + 1·y₃,
X = 0.0071·x₁ + 0.471·x₂ + 0.432·x₃ – 0.0083·x₄ + 0.1007·x₅ – 0.0025·x₆이며, 두 복합변수 간 상관계수는 0.9023으로 매우 높다. 결과 해석에서는 외국 출신 학생 비중이 높을수록 성적이 오히려 상승하는 등, 정책적 인사이트를 도출한다.
이와 같이 논문은 CCA를 실용적인 스프레드시트 환경에 구현하고, 제약조건을 자유롭게 삽입함으로써 전통적 회귀의 한계를 극복한다. 또한 모델이 직관적이고 해석 가능하며, 계산 비용이 낮아 비전문가도 손쉽게 적용할 수 있다는 장점을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기