두 집합 상호작용의 부분 최소제곱 요인 모델링

본 논문은 두 집합(주체와 대상) 사이의 상호작용 행렬 Z 를 설명 변수 행렬 X (주체)와 Y (대상) 로부터 추출한 잠재 요인 f 와 g 를 이용해 단계적으로 모델링하는 새로운 탐색적 기법, PLS‑FILM(Partial Least Squares Factor Interaction Linear Modelling)을 제안한다. 1. **문제 설정** - 관측 집합은 n 개의 주체와 p 개의 대상으로 구성되며, 각각 J 와 K 개의 설명 변수를 가진다. - 상호작용 행렬 Z ( n × p )는 주체‑대상 쌍에 대한 수치값을 담고 있다. - 전통적인 회귀 모델은 J + K + JK 개의 회귀변수를 필요로 하여 차원 저주와 과적합 위험이 크다. 2. **잠재 요인 정의** - 주체 요인 f_s ( s = 1…S )는 X 와 가중치 행렬 A 를 통해 f = X A 로 정의되고, 대상 요인 g_t ( t = 1…T )는 Y 와 B 를 통해 g = Y B 로 정의된다. - 각 요인은 정규화된 가중치 벡터 u_s, v_t 에 의해 생성되며, ‖u_s‖_M = 1, ‖v_t‖_N = 1 을 만족한다. 3. **모델 A와 모델 B** - **모델 A(순수 상호작용)**: Ẑ = ∑_{s,t} θ_{st} f_s g_tᵀ = F Θ Gᵀ. 여기서 Θ 는 상호작용 계수 행렬이며, 잔차 E = Z − Ẑ 을 최소화한다. - **모델 B(상호작용 + 자체 효과)**: Ẑ = F Θ Gᵀ + F Φ 1ᵀ + 1 Γᵀ Gᵀ, 여기서 Φ 와 Γ 는 각각 주체와 대상 요인의 자체 효과를 나타낸다. 모델 B는 실제 데이터에서 종종 관찰되는 주체·대상 고유 효과를 포착한다. 4. **구조적 강도와 최적화 기준** - 요인의 구조적 강도는 ‖f_s‖_P² = u_sᵀ M Xᵀ P X M u_s 와 ‖g_t‖_Q² = v_tᵀ N Yᵀ Q Y N v_t 로 정의된다. 이는 각각 X 와 Y 의 관측이 해당 요인 축에 투영된 관성(inertia)이다. - 최적화 목표는 (i) Z와 Ẑ 의 잔차 제곱합을 최소화하고, (ii) 각 요인의 강도 ‖f_s‖_P, ‖g_t‖_Q 를 동시에 최대화하는 복합 기준을 설정한다. 이는 기존 PLS가 적합도만을 고려하는 것과 차별화된다. 5. **알고리즘: 단계적(rank‑wise) 추정** - **1차 모델**: S = T = 1인 경우, f₁ 와 g₁ 을 동시에 최적화한다. 이는 Xᵀ P Z Q Y 의 첫 번째 특이값·특이벡터와 유사하게 계산된다. - **2차 이후**: 기존 요인에 직교하는 새로운 요인 f₂, g₂ 를 찾으며, 교차 상호작용 f₁ g₂ᵀ 와 f₂ g₁ᵀ 도 모델에 포함한다. 각 단계에서 요인의 직교성(ℝⁿ, ℝᵖ)과 정규화를 유지한다. - **모델 B 확장**: 모델 A에서 얻은 요인에 자체 효과 Φ, Γ 를 추정하는 추가 회귀 단계가 포함된다. 6. **기존 방법과의 비교** - **RLQ 분석**: 모델 A와 1차에서 동일하지만, 이후 단계에서 교차 상호작용을 무시하고 단순 대각화만 수행한다. RLQ는 공분산(코인ertia) 최대화에 초점을 맞추며, 구조적 강도는 고려되지 않는다. - **L‑PLS**: M, N, P, Q를 단위 행렬로 가정하고, Xᵀ Z Y 의 SVD를 이용해 요인을 추정한다. 이는 모델 A에 해당하지만, 자체 효과와 교차 상호작용을 포함하지 않으며, 가중치 행렬을 자유롭게 설정할 수 없는 제한이 있다. - **ACPIM**: Z를 X C Yᵀ + X H + K Yᵀ  형태로 분해하지만, 요인의 구조적 강도를 고려하지 않아 잡음 차원도 모델에 포함될 위험이 있다. PLS‑FILM은 강도 기반 요인 선택으로 잡음 차원을 억제하고, 해석 가능성을 높인다. 7. **실제 적용과 해석** - 저자는 와인‑치즈, 화장품‑피부, 농업‑작물 등 다양한 분야에서 주체와 대상이 각각 풍부한 설명 변수를 가질 때, PLS‑FILM이 어떻게 차원 축소와 상호작용 모델링을 동시에 수행하는지를 시연한다. - 각 요인 f_s, g_t 는 원 변수들의 선형 결합으로 해석 가능하며, θ_{st} 값은 특정 주체 요인과 대상 요인 간의 상호작용 강도를 정량화한다. 자체 효과 φ_s, γ_t 는 특정 요인이 독립적으로 미치는 영향을 보여준다. 8. **결론** - PLS‑FILM은 (1) 주체·대상 설명 변수의 구조적 강도를 반영, (2) 상호작용과 자체 효과를 동시에 모델링, (3) 가중치 행렬을 통해 연속형·범주형·구조화된 데이터 모두에 유연하게 적용, (4) 단계적(rank‑wise) 추정으로 해석 가능한 요인 구조를 제공한다는 장점을 가진다. - 이러한 특성은 차원 저주와 잡음에 민감한 실제 데이터 분석에서 보다 견고하고 직관적인 결과를 얻을 수 있게 한다.

두 집합 상호작용의 부분 최소제곱 요인 모델링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기