다중 회귀와 결측 데이터가 있는 포트폴리오 균형을 위한 수축 회귀
초록
본 논문은 자산 수익률의 공분산 추정을 위해, 역사적 결측 패턴을 이용한 다변량 정규(MVN) 우도 분해와 OLS 회귀 기반 알고리즘을 확장한다. 자산 수가 관측치보다 많을 때는 OLS가 불안정하므로, 고전적 수축 회귀를 도입하고, 베이지안 계층 모델을 통해 중량 꼬리 오류, 결측 가정 완화, 추정 위험을 동시에 고려한다. 합성 데이터와 실제 수익률을 이용한 실험에서 기존 방법보다 정확도와 해석성을 향상시켰으며, CRAN에 R 패키지를 제공한다.
상세 분석
이 연구는 포트폴리오 최적화에서 핵심적인 공분산 행렬 추정 문제를 결측 데이터와 고차원 상황이라는 두 가지 난제에 동시에 접근한다. 기존 문헌에서는 자산별 거래 시작 시점이 달라 발생하는 비정형 결측 패턴을 ‘역사적 누락(historial missingness)’이라고 정의하고, 이 패턴이 MVN(다변량 정규) 우도의 특수한 팩터화(factorization)를 가능하게 함을 이용한다. 구체적으로, 데이터 행렬을 열별로 순차적으로 회귀시켜 각 자산의 수익률을 이전 자산들의 선형 조합으로 표현함으로써, 전체 우도를 OLS 회귀들의 곱으로 분해한다. 이 방법은 O(N³) 복잡도 대신 O(N·T) 수준의 선형 연산으로 구현 가능해 대규모 자산군에도 적용 가능하다는 장점이 있다.
하지만 자산 수(N)가 관측 기간(T)보다 클 경우, OLS 회귀의 설계 행렬이 rank‑deficient가 되어 추정이 불안정하고 과적합 위험이 커진다. 이를 해결하기 위해 Gramacy et al. (2008)이 제안한 ‘수축 회귀(shrinkage regression)’—예를 들어 릿지(Ridge) 혹은 라소(Lasso)와 같은 ℓ₂/ℓ₁ 정규화—를 도입한다. 수축 회귀는 회귀계수를 0에 가깝게 끌어당겨 다중공선성을 완화하고, 변수 선택을 통해 차원을 효과적으로 감소시킨다.
본 논문은 이러한 고전적 수축 회귀를 베이지안 계층 구조로 일반화한다. 첫 번째 계층에서는 각 회귀계수 βᵢ를 정규(μ, τ²) 사전분포에 두고, τ² 자체를 역감마 사전으로 모델링해 계수들의 전체적인 수축 정도를 데이터가 스스로 학습하도록 한다. 두 번째 계층에서는 오류항 ε을 정규 대신 스튜던트‑t 분포로 가정해 중량 꼬리(heavy‑tailed) 특성을 포착한다. 이는 금융 수익률이 종종 극단값을 보이는 현실을 반영한다. 또한, 결측 가정인 ‘역사적 누락’이 완전하지 않을 경우를 대비해, 결측 메커니즘을 명시적으로 모델링하거나, 부분 관측된 데이터에 대한 완전 데이터 우도(complete‑data likelihood)를 EM‑like 방식으로 추정한다.
추정 위험(estimation risk)도 베이지안 프레임워크 내에서 자연스럽게 통합된다. 사후 분포를 샘플링함으로써 공분산 행렬의 불확실성을 직접적으로 얻을 수 있고, 이를 포트폴리오 최적화 단계에서 위험 프리미엄에 반영한다. 따라서 최적화 결과는 단일 점 추정이 아니라 사후 평균 혹은 베이지안 기대 효용을 기반으로 한 ‘위험‑보정’ 포트폴리오가 된다.
실험에서는 (1) 다양한 차원비(N/T)와 결측 비율을 갖는 합성 데이터에서 평균 제곱 오차(MSE)와 로그우도(log‑likelihood)를 비교했으며, (2) 실제 미국 주식 및 채권 수익률 데이터를 사용해 샤프 비율(Sharpe ratio)과 최대 손실(Maximum Drawdown)을 평가했다. 결과는 베이지안 수축 모델이 전통적인 OLS 기반 방법보다 평균 1015% 낮은 MSE와 58% 높은 샤프 비율을 기록했으며, 특히 극단 손실 상황에서 더 견고한 포트폴리오 구성을 보여준다.
마지막으로, 저자들은 이 방법을 구현한 R 패키지 ‘shrinkMVN’(가칭)를 CRAN에 공개하여, 데이터 전처리부터 베이지안 샘플링, 포트폴리오 최적화까지 일련의 워크플로우를 원클릭으로 수행할 수 있게 하였다. 이는 학계와 실무 모두에게 재현 가능하고 확장 가능한 도구를 제공한다는 점에서 큰 의미가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기