거시경제 시계열 변수 상호작용 탐색을 위한 유전 프로그래밍 기반 모델링

초록

본 논문은 유전 프로그래밍과 심볼릭 회귀를 활용해 대규모 거시경제 데이터셋의 변수 간 상호작용을 자동으로 탐색한다. 각 변수마다 다중 회귀 실행을 통해 예측에 기여하는 주요 변수들을 식별하고, 이를 네트워크 형태로 시각화한다. 미국 월별 주요 지표를 대상으로 실험했으며, 특히 ‘구인광고 지수’와 ‘소비자물가 상승률(CPI)’을 예측하는 두 모델을 상세히 제시한다.

상세 분석

이 연구는 전통적인 구조방정식 모델이나 VAR(Vector Autoregression)과 달리, 비선형 관계와 변수 간 복합적인 상호작용을 자연스럽게 포착할 수 있는 심볼릭 회귀를 핵심 엔진으로 채택한다. 유전 프로그래밍(GP)은 함수와 연산자를 조합해 수식 트리를 진화시키며, 적합도는 예측 오차와 모델 복잡도(트리 깊이·노드 수) 사이의 균형을 고려한 다목적 함수를 사용한다. 논문에서는 각 목표 변수마다 30~50회의 독립 실행을 수행해 다수의 후보 모델을 생성하고, 변수 중요도는 ‘출현 빈도’와 ‘기여도(ΔR²)’를 종합해 평가한다. 이렇게 얻어진 변수-변수 관계는 방향성(예측 변수 → 목표 변수)과 가중치(중요도)로 표현돼, 전체 데이터셋에 대한 상호작용 네트워크를 구성한다.

실험에 사용된 데이터는 미국 연방준비제도(FRB)·연방통계청(FRED) 등에서 수집한 20여 개 월별 지표(실업률, 제조업 PMI, 금리, 주가 지수 등)이며, 1990년부터 2020년까지의 360개 관측치를 포함한다. 네트워크 분석 결과, 금리와 인플레이션, 제조업 활동과 고용 지표 사이에 강한 연결이 확인되었으며, 일부 변수(예: 주택 착공 건수)는 특정 목표 변수에만 국한된 영향을 보였다.

두 개의 대표 모델은 다음과 같다. 첫 번째는 ‘구인광고 지수’를 설명하는 모델로, 실업률, 제조업 PMI, 소비자 신뢰지수 등이 비선형 조합(예: 실업률 × log(PMI)) 형태로 포함돼 높은 설명력을 보였다(R²≈0.78). 두 번째는 ‘미국 CPI 인플레이션’ 모델로, 원자재 가격 지수, 연방기금금리, 환율 등이 다항식 및 로그 변환을 통해 결합돼 R²≈0.81을 달성했다. 두 모델 모두 과적합 방지를 위해 교차 검증과 파레토 프론트 기반 모델 선택을 적용했으며, 해석 가능성(인간이 이해 가능한 수식)과 예측 정확도 사이의 트레이드오프를 명확히 제시한다.

이 접근법의 장점은 (1) 변수 간 비선형·다중 상호작용을 자동으로 탐색한다는 점, (2) 결과가 수식 형태라 해석이 용이하다는 점, (3) 네트워크 시각화를 통해 정책 입안자가 핵심 변수와 구조를 직관적으로 파악할 수 있다는 점이다. 반면, GP의 연산 비용이 높아 대규모 변수 집합에 적용하려면 병렬화·GPU 활용이 필요하고, 모델 선택 기준이 다목적 함수 설계에 크게 의존한다는 한계가 있다. 또한, 시계열 특성을 완전히 반영하려면 lag 변수와 계절성을 명시적으로 포함시키는 것이 바람직하다. 향후 연구에서는 베이지안 최적화와 결합한 하이퍼파라미터 튜닝, 그리고 다중 국가·다중 주기 데이터에 대한 일반화 검증을 제안한다.