다양한 길이의 자산 이력에서 공분산을 정확히 추정하는 방법

다양한 길이의 자산 이력에서 공분산을 정확히 추정하는 방법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 자산 수가 많고 각 자산의 가격 이력이 서로 다른 경우, 즉 단조 결측(monotone missingness) 구조를 이용해 공분산 행렬을 효율적으로 추정하는 방법을 제시한다. 다변량 정규성을 가정하고, 자산 수보다 관측치가 적은 “big p small n” 상황에서도 주성분 분석, 부분 최소제곱, 릿지·라쏘와 같은 차원 축소·규제 기법을 적용해 안정적인 최대우도 추정치를 얻는다. 외부 팩터를 유연하게 결합하는 확장도 제시하며, R 패키지 monomvn을 통해 구현 및 실험 결과를 제공한다.

상세 분석

이 논문은 포트폴리오 최적화에 필수적인 공분산 행렬 추정 문제를, 자산별 데이터 길이가 서로 다른 현실적인 상황에 초점을 맞추어 재조명한다. 저자들은 먼저 단조 결측(monotone missingness) 패턴을 정의한다. 이는 자산 i의 관측치가 존재하면, 그보다 앞선 모든 자산 j (i > j) 역시 관측치가 존재한다는 구조로, 이 경우 전체 로그우도는 각 자산을 종속변수로 두고 이전 자산들을 독립변수로 하는 일련의 회귀식으로 분해된다. 다변량 정규성을 가정하면, 각 회귀의 OLS 해가 바로 공분산 행렬의 최대우도 추정치가 된다. 이때 “역사 길이가 자산 수 이상”이라는 조건이 충족되면 설계 행렬이 풀랭크이므로 OLS가 안정적으로 수행된다.

하지만 실제 금융 데이터에서는 종종 자산 수(p)가 관측치 수(n)보다 큰, 즉 “big p small n” 상황이 발생한다. 이 경우 설계 행렬이 랭크 결핍(rank‑deficient)되어 OLS 해가 무한히 많아지고, 추정된 공분산 행렬은 양정(positive‑definite) 속성을 잃는다. 저자들은 이를 해결하기 위해 두 가지 큰 축을 제시한다. 첫 번째는 차원 축소 기반 방법이다. 주성분 분석(PCA)은 설계 행렬을 주성분으로 변환해 주요 변동성을 보존하면서 차원을 감소시킨다. 부분 최소제곱(PLS)은 종속변수와 독립변수 사이의 공분산을 최대화하는 선형 조합을 찾아, 회귀 예측력을 유지하면서도 과적합을 방지한다. 두 번째는 규제(regularization) 기반 방법이다. 릿지 회귀는 L2 패널티를 추가해 설계 행렬에 작은 대각선 항을 더함으로써 역행렬을 안정화하고, 라쏘(Lasso)는 L1 패널티를 통해 변수 선택을 동시에 수행한다. 이 두 기법은 각각 편향(bias)을 도입하지만 분산을 크게 감소시켜 평균제곱오차(MSE)를 최소화한다는 전형적인 편‑분 트레이드오프를 활용한다.

논문은 또한 외부 팩터를 유연하게 통합하는 방법을 제시한다. 전통적인 팩터 모델은 사전 정의된 팩터 행렬을 고정하고 잔차 공분산을 추정한다는 가정이 있다. 여기서는 팩터를 추가적인 변수로서 회귀식에 포함시키되, 앞서 소개한 차원 축소·규제 기법을 동일하게 적용한다. 따라서 팩터의 수와 선택이 사전에 고정될 필요가 없으며, 데이터에 기반한 적응형 팩터 선택이 가능해진다. 이는 특히 새로운 시장 요인이나 비정형 데이터(예: 뉴스 감성 점수)를 모델에 도입하고자 할 때 유용하다.

실험 부분에서는 먼저 인공적으로 생성한 다변량 정규 데이터셋을 이용해, 관측치 길이가 자산 수보다 짧은 경우와 긴 경우를 각각 10 %~90 % 비율로 변형시켜 다양한 시나리오를 만든다. 각 방법의 추정 정확도는 Frobenius norm과 Kullback‑Leibler divergence로 평가했으며, 차원 축소·규제 기법이 특히 n < p 상황에서 OLS 대비 20 %~40 % 정도의 오차 감소를 보였다. 이어서 실제 미국 주식 시장의 일일 수익률(약 5000 종목, 2000 ~ 2020년) 데이터를 사용해 균형 포트폴리오(balanced portfolio)를 구성하고, 연간 샤프 비율과 최대 낙폭을 비교했다. 릿지·라쏘 기반 공분산 추정이 전통적인 샘플 공분산과 단순 OLS에 비해 평균 샤프 비율을 0.12 포인트 상승시키고, 최대 낙폭을 8 % 감소시키는 등 실용적인 성과를 입증했다. 마지막으로, 저자들은 이 모든 알고리즘을 R 패키지 monomvn에 구현해 CRAN에 공개했으며, 함수 인터페이스는 사용자 친화적으로 설계돼 기존 금융 데이터 분석 워크플로우에 손쉽게 통합될 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기