다중공분산 기반 PLS 회귀 확장: 구조방정식 탐색 회귀(SEER)
본 논문은 종속 변수 그룹 Y와 여러 주제별 예측 변수 그룹 X₁,…,X_R 사이의 선형 관계를 탐색하기 위해, 기존 PLS 회귀의 다중공분산 기준을 확장한 새로운 방법인 구조방정식 탐색 회귀(SEER)를 제안한다. SEER는 각 그룹 내 다차원 구조를 유지하면서 차원 축소와 회귀 모델 적합을 동시에 수행한다. 이론적 정의, 알고리즘 흐름, 그리고 와인 데이터 예시를 통해 방법의 유용성을 입증한다.
저자: Xavier Bry (I3M), Thomas Verron (CEFE), Pierre Cazes (CEREMADE)
본 논문은 다수의 주제별 예측 변수 그룹 X₁,…,X_R 과 하나의 종속 변수 그룹 Y 사이의 선형 관계를 탐색·모델링하기 위한 새로운 통계적 방법인 구조방정식 탐색 회귀(SEER, Structural Equation Exploratory Regression)를 제안한다. 기존의 부분 최소 제곱(Partial Least Squares, PLS) 회귀는 단일 예측 변수 집합에만 적용 가능하고, 각 그룹당 하나의 잠재 변수를 추출한다는 제한이 있다. 이러한 한계를 극복하고자 저자들은 PLS 회귀의 핵심 아이디어인 ‘공분산 최대화’를 다중공분산 기준으로 일반화하였다.
**1. 이론적 배경**
- 변수 그룹 X_r 은 (n, J_r) 행렬, 종속 그룹 Y는 (n, K) 행렬로 표현된다. 각 그룹은 양정정 가중 행렬 M_r (또는 N)으로 메트릭을 정의하여 관측 공간에 대한 내적을 조정한다.
- 잠재 컴포넌트는 선형 결합 F_{rj}=X_r M_r u_{rj} (또는 G_k=Y N v_k) 형태이며, 정규화 제약 ‖u_{rj}‖_{M_r}=1, ‖v_k‖_{N}=1 을 둔다.
- 다중공분산 기준 C₄는 종속 변수와 예측 컴포넌트 간 코사인 유사도와 각 그룹 내부 구조적 강도(관성)의 곱으로 정의된다. 즉, C₄ = ‖y‖_P²·cos²(y,⟨F₁,…,F_R⟩)·∏_{r=1}^R‖F_r‖_P². 이 기준은 (i) 모델 적합도, (ii) 각 그룹의 ‘강한’ 차원 선택을 동시에 만족한다.
**2. 알고리즘(SEER) 흐름**
- **메트릭 선택**: M_r은 분석 목적에 따라 선택한다. 표준 PCA를 원하면 M_r=I, 구조 강도 무시 시 M_r=(X_r' P X_r)^{-1}, 범주형 변수는 다중 대응 분석에 해당하는 블록 대각 행렬을 사용한다.
- **첫 번째 컴포넌트 추출**: 다중공분산 기준을 최대화하는 고유값 문제 R_{X_r,M_r,P} R_{Y,N,P} F_{r1}=λ F_{r1}을 풀어 각 그룹의 첫 번째 컴포넌트 F_{r1}을 얻는다. 여기서 R_{X,M,P}=X M X' P는 ‘선형 결과물’ 연산자이다.
- **회귀 및 잔차 계산**: 추출된 F_{r1} 과 Y 사이의 회귀 계수를 추정하고, X_r를 F_{r1}에 대해 회귀시켜 잔차 행렬 X_r^{(1)}을 만든다.
- **다음 차원**: 동일 절차를 잔차 행렬에 적용해 두 번째, 세 번째 등 원하는 차원 수만큼 컴포넌트를 순차적으로 추출한다. 각 컴포넌트는 이전 컴포넌트와 직교하도록 강제되어 해석성을 유지한다.
- **Y 차원 축소**: 필요시 Y에 대해서도 동일 과정을 적용해 G_k 를 추출하고, Y를 G_k 에 회귀시켜 모델을 완성한다. 최종 모델은 Y≈∑_{r,j}β_{rj}F_{rj} 또는 Y≈∑_{k}γ_k G_k 와 같은 선형 형태를 가진다.
**3. PLS와의 차별점**
- **부분 관계 고려**: SEER는 X_r→Y 관계를 다른 그룹을 통제한 상태에서 평가한다. 기존 PLSPM은 전체 구조를 동시에 최적화하지만, 개별 그룹 간의 부분 효과를 명시적으로 분리하지 않는다.
- **다중 차원 추출**: 각 그룹당 하나가 아닌, 사용자가 지정한 만큼의 차원을 추출할 수 있어 복합 현상을 더 풍부하게 설명한다.
- **메트릭 유연성**: 연속형, 범주형, 혼합형 데이터를 동일 프레임워크에 포함할 수 있도록 M_r, N 을 자유롭게 지정한다.
**4. 실험 및 적용 사례**
와인 데이터(olfaction, palate, hedonic 평가) 세 개의 주제 그룹을 사용해 SEER를 적용하였다.
- 첫 번째 컴포넌트는 각 그룹별 전통적인 PCA와 유사한 구조를 보였으며, 향미와 입맛의 주된 변동을 설명한다.
- 두 번째 컴포넌트는 다른 그룹과의 회귀 적합도를 고려해 선택되었으며, ‘향미 대비 입맛’ 상호작용을 드러냈다.
- 모델 적합도(R²)는 단일 그룹 PLS보다 높았으며, 변수 선택 안정성도 향상되었다.
**5. 한계 및 향후 연구**
- 현재 SEER는 선형 관계와 정규화된 연속형 데이터를 전제로 한다. 비선형 관계나 고차원 희소 데이터에 대한 확장은 커널화 혹은 정규화 기법이 필요하다.
- 알고리즘 복잡도는 그룹 수와 차원 수에 따라 O(R·n·J²) 정도로 증가하므로, 대규모 데이터에 대한 효율적인 구현(병렬 PCA, 랜덤화 SVD 등)이 요구된다.
- 베이지안 프레임워크와 결합해 사전 정보(전문가 가중치 등)를 반영하는 확장도 가능성이 있다.
결론적으로, SEER는 다중 예측 그룹이 존재하는 복합 데이터 상황에서 구조적 강도와 모델 적합도를 동시에 고려한 차원 축소·회귀 방법을 제공한다. 이는 기존 PLS와 PLSPM이 갖는 제한을 보완하고, 실무에서 변수 선택 및 해석을 보다 직관적으로 수행할 수 있게 한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기