함수형 예측 변수 선택과 매끄러운 계수 추정
초록
본 논문은 다중 함수형 예측 변수를 이용해 스칼라 반응을 예측하는 scalar‑on‑function 회귀 모델에서, 변수 선택과 계수 함수의 매끄러운 추정을 동시에 수행하는 SOFIA 방법을 제안한다. 함수형 예측 변수는 일반 실수 분리 힐베르트 공간에, 계수 함수는 정규화된 서브스페이스(특히 RKHS)에 속하도록 설정한다. 적응형 Lasso 패널티와 함수형 서브그라디언트를 이용한 최적화 알고리즘을 개발하고, 제한된 고유값 조건 하에서 함수형 오라클 속성을 증명한다. 시뮬레이션과 캐나다 GDP 성장 예측 사례를 통해 변수 선택 정확도와 추정 효율성을 검증한다.
상세 분석
SOFIA(Scalar‑On‑Function Integrated Adaptive Lasso)는 함수형 데이터 분석에서 고차원 변수 선택 문제를 해결하기 위해 설계된 새로운 적응형 Lasso 프레임워크이다. 기존의 그룹 Lasso 기반 방법들은 함수형 변수를 스칼라 그룹으로 변환하고, 정규화된 패널티를 적용하지만, 함수형 설계 행렬이 힐베르트 공간 원소라는 점에서 이론적·계산적 한계가 있었다. SOFIA는 먼저 비적응형 함수형 Lasso를 적용해 초기 변수 후보를 추출하고, 각 계수 함수의 K‑노름(특정 RKHS에 정의된 노름)의 절대값 역수를 가중치로 사용해 적응형 패널티를 구성한다. 이때 K는 양의 정의이며 트레이스‑클래스인 연산자로, 고유값 분해를 통해 힐베르트 공간 H와 동일한 정규 직교 기저를 공유하지만, 더 강한 토폴로지를 제공한다. 이러한 구조는 계수 함수가 매끄러움, 주기성 등 원하는 정규성을 갖도록 보장한다.
최적화는 무한 차원의 설계 행렬을 유한 차원으로 근사하는 sieve 방법을 채택한다. 구체적으로, K의 고유함수를 이용해 H와 K 각각을 차원 m의 부분공간 H(m), K(m)으로 투사하고, 이들 부분공간에서 최소제곱 손실과 적응형 K‑노름 패널티를 동시에 최소화한다. 함수형 서브그라디언트 이론을 활용해 비스무스(비스무스) 최적화 문제를 효율적으로 해결한다는 점이 기존의 대표 정리 기반 방법보다 계산 속도가 빠른 장점으로 작용한다.
이론적 측면에서는 제한된 고유값(RE) 조건 하에 비적응형 경우에도 추정 오차에 대한 샤프한 상한을 도출하고, 주요 정리(Theorem 2)를 통해 적응형 가중치를 적용했을 때 함수형 오라클 속성을 증명한다. 즉, 활성 변수 집합을 확률적으로 1에 수렴하도록 정확히 식별하고, 추정 오차는 τ_m/√n 수준의 비모수적 수렴률을 보인다(τ_m은 K(m)에서 경험 공분산의 최소 고유값). 또한, 이 결과는 원래 힐베르트 공간 H의 토폴로지에서도 동일하게 성립한다는 점에서 기존 연구의 한계를 넘어선다.
실험에서는 다양한 시뮬레이션 시나리오(예: 잡음 수준, 변수 수, 함수형 복잡도)에서 SOFIA를 그룹 Lasso, 적응형 그룹 Lasso, Roche(2023) 방법, 최신 FAStEN(2025)과 비교하였다. 결과는 변수 선택 정확도(F1 점수)와 계수 함수의 평균 제곱 오차(MSE) 모두에서 SOFIA가 우수함을 보여준다. 특히, 변수 수가 표본보다 많거나, 함수형 데이터가 비정규화된 경우에도 안정적인 성능을 유지한다.
실제 데이터 적용으로는 캐나다의 분기별 GDP 성장률을 예측하기 위해 금리, 주가, 무역 지표 등 여러 고주파 경제 지표를 함수형 형태로 변환하였다. SOFIA는 중요한 예측 변수를 효과적으로 선별하고, 매끄러운 계수 함수를 제공함으로써 해석 가능하고 예측력이 높은 모델을 구축하였다. 이 사례는 불균형 데이터와 고주파 변수를 다루는 실제 상황에서도 제안 방법의 실용성을 입증한다.
전반적으로 SOFIA는 함수형 예측 변수 선택과 정규화된 계수 추정을 하나의 통합 프레임워크로 제공하며, 이론적 오라클 보장과 실용적 계산 효율성을 동시에 만족한다는 점에서 함수형 회귀 분석 분야에 중요한 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기