고차원 적응형 회귀를 위한 주성분 기반 HAL과 HAR
초록
Highly Adaptive Lasso(HAL)와 Highly Adaptive Ridge(HAR)는 비모수 회귀에서 차원에 거의 독립적인 수렴률을 제공하지만, 기반이 되는 방대한 지표 함수 집합 때문에 계산 비용이 크게 늘어난다. 본 논문은 HAL·HAR의 Gram 행렬을 주성분(Principal Component)으로 저차원으로 압축하는 PCHAL과 PCHAR을 제안한다. 이 방법은 응답 변수와 무관하게 설계 행렬만을 이용해 차원 축소를 수행하므로 구현이 간단하고, 선형대수 연산만으로 ℓ₁·ℓ₂ 정규화 해를 얻을 수 있다. 또한, 주요 주성분이 이산 사인파 기반의 푸리에 구조와 일치한다는 새로운 스펙트럴 연결을 밝혀, 저차원 트렁케이션이 이론적으로도 타당함을 입증한다. 실험 결과는 기존 HAL·HAR와 거의 동등한 예측 성능을 보이며, 계산 시간은 수십 배에서 수백 배까지 감소한다.
상세 분석
HAL은 좌표축에 정렬된 이진 지표 함수(또는 스플라인 형태)를 모두 포함하는 포화 사전(dictionary)을 구성하고, ℓ₁ 패널티를 부여해 섹셔널 변동(sectional variation) 노름을 제한한다. 이때 설계 행렬 H는 n×p( p≈n·(2ᵈ−1) ) 크기로, 차원이 커질수록 메모리와 최적화 비용이 급증한다. HAR는 ℓ₁ 대신 ℓ₂ 패널티를 적용해 K=HHᵀ( n×n ) 커널 행렬을 이용, Sherman‑Morrison‑Woodbury 식으로 해를 닫힌 형태로 구한다. 그러나 K의 고유값 분해가 필요하고, p≫n 상황에서도 여전히 O(n³) 연산이 병목이 된다.
PCHAL·PCHAR은 이러한 병목을 완화하기 위해 K의 상위 k개의 주성분만을 보존한다. 구체적으로 K=U D Uᵀ를 수행하고, D의 상위 k값과 대응하는 열 U_k를 추출한다. 이때 k≪n이면 K≈U_k D_k U_kᵀ 로 근사되며, 원래 회귀 문제는 k차원 정규 직교 공간으로 투사된다. HAR의 경우 ℓ₂ 정규화가 그대로 적용돼 β̂=U_k (D_k+λI)⁻¹ U_kᵀ Y 로 간단히 계산된다. HAL의 경우 주성분이 직교하므로 ℓ₁ 정규화는 각 스코어에 대한 소프트‑쓰레숄딩으로 변환돼, 별도의 좌표별 최적화 없이 바로 해를 얻을 수 있다.
가장 흥미로운 이론적 발견은, HAL/HAR의 Gram 연산자가 실제로 이산 사인파(디지털 사인 코사인 변환)와 동일한 고유함수를 가진다는 점이다. 저자들은 K의 고유벡터가 1/(√n)·sin(π·j·t_i) 형태(여기서 t_i는 정렬된 좌표값)임을 증명하고, 이는 기존 커널 PCA에서 나타나는 푸리에 기반 트렁케이션과 일맥상통한다. 따라서 주성분 선택이 임의적인 차원 축소가 아니라, 데이터의 순서 구조에 기반한 자연스러운 주파수 필터링임을 보인다.
알고리즘적으로는 (1) H를 구성 → K=HHᵀ, (2) 빠른 랜덤 SVD 혹은 Lanczos 방법으로 상위 k 고유벡터 추출, (3) ℓ₂는 닫힌 형태, ℓ₁은 소프트‑쓰레숄드 적용, (4) 예측은 원본 공간으로 역투사한다. 구현은 R·Python 패키지로 공개돼, 교차 검증 시 매번 전체 설계 행렬을 재구성할 필요 없이 고유벡터만 재사용하면 된다. 실험에서는 d=1030, n=5005000 범위에서 k≈30100을 선택했으며, 평균 예측 오차는 HAL·HAR와 차이가 없고, 실행 시간은 20배200배 가량 단축되었다.
이러한 결과는 (i) HAL·HAR의 이론적 수렴률을 유지하면서 (ii) 고차원·대규모 데이터에 실용적으로 적용 가능하게 하고, (iii) 주성분 트렁케이션이 데이터 구조와 깊은 스펙트럴 연관성을 갖는다는 새로운 통찰을 제공한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기