고차원 부분 최소제곱을 이용한 다중선형 회귀

초록

본 논문은 텐서 X와 텐서 Y 사이의 회귀를 위해 새로운 다중선형 모델인 Higher‑Order Partial Least Squares(HOPLS)를 제안한다. HOPLS는 데이터와 라벨을 각각 개별적으로 분해하는 대신, 정규 직교 Tucker 텐서들의 합으로 표현하고, 일반화된 교차공분산 텐서에 대한 고차원 SVD를 통해 최적의 잠재공간을 순차적으로 추출한다. 실험 결과, 소규모 샘플 및 잡음이 많은 상황에서도 기존 방법보다 예측 정확도가 우수함을 확인하였다.

상세 분석

HOPLS는 기존의 PLS와 다중선형 회귀 기법이 텐서 데이터를 다룰 때 발생하는 차원 저주와 과적합 문제를 해결하기 위해 설계되었다. 핵심 아이디어는 입력 텐서 X와 출력 텐서 Y를 각각 개별적으로 분해하는 것이 아니라, 두 텐서가 공유하는 잠재공간을 찾는 것이다. 이를 위해 저자들은 ‘일반화된 교차공분산 텐서(Generalized Cross‑Covariance Tensor)’를 정의하고, 이 텐서에 대해 고차원 SVD(HOSVD)를 수행한다. HOSVD는 각 모드(차원)마다 직교 로딩 행렬을 제공하며, 이 로딩 행렬들은 Tucker 형태의 텐서에 대한 직교성(orthogonality)을 보장한다.

모델 복잡도는 각 모드별 로딩의 수, 즉 Tucker 코어 텐서의 차원(rank)으로 조절된다. 로딩 수를 제한함으로써 과적합을 방지하고, 작은 샘플에서도 안정적인 추정이 가능하도록 한다. 또한, HOPLS는 순차적인 deflation 절차를 사용한다. 첫 번째 컴포넌트를 추정한 뒤, 해당 컴포넌트가 설명한 부분을 X와 Y에서 차감하고, 남은 잔차 텐서에 대해 다시 HOSVD를 적용한다. 이렇게 하면 각 컴포넌트가 서로 직교하게 되며, 전체 모델이 최적의 공동 서브스페이스 근사를 제공한다.

예측 단계에서는 추정된 잠재 변수(Score)들을 선형 회귀(예: 최소제곱)로 연결한다. 즉, X의 잠재 변수와 Y의 잠재 변수가 동일한 스코어 행렬을 공유하게 되며, 이는 전통적인 PLS와 동일한 회귀 구조를 유지한다. 그러나 Tucker 구조를 도입함으로써 각 모드별 차원 축소가 가능해져, 고차원 데이터(예: 3‑D 뇌 전기 신호)에서도 효율적인 파라미터 추정이 가능하다.

실험에서는 합성 데이터와 실제 ECoG‑to‑3D movement decoding 과제를 통해 HOPLS의 성능을 검증한다. 합성 실험에서는 샘플 수가 변수 차원보다 현저히 적은 ‘small‑n‑large‑p’ 상황과, 다양한 SNR(신호대잡음비) 조건을 변형시켜 모델의 견고성을 평가한다. 결과는 HOPLS가 기존 N‑PLS, CP‑PLS, 그리고 다중선형 회귀(MLR) 대비 높은 R²와 낮은 RMSE를 기록함을 보여준다. 실제 ECoG 데이터에서는 3‑D 손목 궤적을 예측하는데, HOPLS는 특히 잡음이 심하거나 훈련 샘플이 제한된 경우에도 안정적인 예측을 제공한다.

이러한 장점은 HOPLS가 텐서 형태의 고차원 데이터를 다루는 뇌‑컴퓨터 인터페이스, 화학 스펙트럼 분석, 영상‑신호 융합 등 다양한 분야에 적용 가능함을 시사한다. 또한, 모델 복잡도 조절을 위한 로딩 수 선택이 직관적이며, 기존 PLS와 동일한 해석 가능성을 유지한다는 점에서 실무 적용성이 높다.