잠재 변수 모델을 이용한 상호작용 항 구조 정규화
초록
LIT‑LVM은 각 특성을 저차원 잠재 벡터로 표현하고, 이 벡터들의 내적 혹은 거리 기반 함수를 통해 상호작용 계수를 근사시켜 구조적 정규화를 수행한다. 기존 라쏘·엘라스틱넷, 계층 라쏘, 팩터화 머신에 비해 고차원 상호작용이 많은 상황에서 예측 정확도가 향상되며, 동시에 특성 간 관계를 시각화할 수 있는 저차원 임베딩을 제공한다.
상세 분석
본 논문은 선형 예측 모델에 2차 상호작용 항을 전부 포함시키는 경우, 파라미터 수가 p²에 달해 과적합 위험이 급증한다는 점에 주목한다. 이를 해결하기 위해 저차원 구조 가정을 도입, 각 특성을 d‑차원 잠재 벡터 z_j (d < p) 로 매핑하고, 상호작용 계수 θ_{jk} 를 두 가지 형태 중 하나로 근사한다. 첫 번째는 저랭크 모델 θ_{jk}=z_jᵀz_k+ε_{jk} 로, 팩터화 머신(FM)의 정확한 저랭크 가정에 ε 잡음을 추가해 ‘근사적’ 저랭크를 허용한다. 두 번째는 거리 기반 모델 θ_{jk}=α₀−‖z_j−z_k‖²+ε_{jk} 로, 양의 상호작용은 벡터를 가깝게, 음의 상호작용은 멀게 배치하도록 설계돼 해석 가능성이 높다.
정규화 목적 함수는 세 부분으로 구성된다. ① L_pred : 회귀·분류·Cox PH 등 기본 선형 예측 손실, ② L_reg : 엘라스틱넷 등 전통적인 ℓ₁/ℓ₂ 정규화, ③ L_lvm : 위에서 정의한 잠재 변수 모델에 대한 제약(θ와 z의 일치 정도). 하이퍼파라미터 λ_r, λ_l 로 전통 정규화와 구조 정규화의 강도를 조절한다. 최적화는 교번(Alternating) 방식으로 β와 Θ(=flattened) 를 먼저 전통 정규화로 업데이트하고, 그 뒤에 Z와 α₀ 등을 gradient‑based 방법으로 공동 학습한다.
실험에서는 (1) 시뮬레이션(다양한 p/n 비율, 잡음 수준)과 (2) 실제 데이터(유전학, 의료, 광고 등)에서 LIT‑LVM이 엘라스틱넷·계층 라쏘·Sparse FM보다 평균 3‑7% 정도 RMSE/Accuracy 향상을 보였다. 특히 p²≫n 상황에서 구조 정규화가 과적합을 크게 억제한다는 점이 강조된다. 또한 학습된 Z를 2‑D 혹은 3‑D로 시각화해 특성 간 클러스터링·관계 해석이 가능했으며, 신장 이식 수혜자‑기증자 HLA 호환성 분석 사례에서 임상적으로 의미 있는 군집을 발견했다.
한계점으로는 (i) 잠재 차원 d 선택이 성능에 민감하고, (ii) 대규모 희소 데이터에 대한 계산 복잡도가 FM에 비해 높으며, (iii) 모델이 정확히 저랭크가 아니면 근사 오차 ε가 커질 수 있다. 향후 연구에서는 자동 d 선택, 스파스 행렬 연산 최적화, 그리고 고차원(3차 이상) 상호작용 확장 등을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기