AI 에이전트 루프를 활용한 경제학 예측 결합 검증
본 논문은 오픈소스 AI 에이전트 루프를 경제학 실증 연구에 적용하고, 검색 단계와 별도로 보류된 검증 데이터를 이용한 사후 평가를 도입한다. 예시로 Diebold‑Shin(2019)의 forecast‑combination 문제를 사용해 세 번의 독립 실행을 수행했으며, 검색 표본에서는 모두 기준 모델을 능가했지만 보류 데이터에서는 두 모델만 지속적으로 우수함을 확인한다. 로그와 사후 검증을 결합함으로써 사전‑사후 투명성을 확보하고, 표본 특이…
저자: Minchul Shin
본 논문은 AI 코딩 에이전트를 활용한 실증 경제학 연구에서 발생할 수 있는 ‘연구자 자유도 확대’를 투명하고 검증 가능한 형태로 제어하기 위한 프레임워크를 제시한다. 먼저, Karpathy(2026)의 오픈소스 autoresearch 프로젝트를 기반으로, 연구자가 사전에 정의한 ‘계약(C)’—연구 목표, 허용 변형, 탐색 예산 등을 명시—와 ‘불변 평가 함수(S)’—검색 표본(D_S)에서 고정된 점수 체계—를 결합한다. 이때 수정 가능한 스크립트 집합 T(C)는 계약에 의해 제한되며, 에이전트는 이 집합 내에서 후보 스크립트 τ_k를 생성한다. 각 후보는 평가 함수 S에 의해 점수 s_k를 부여받고, 성공·실패·보류와 같은 상태 d_k와 함께 로그 L에 순차적으로 기록된다. 알고리즘 1은 이러한 과정을 단계별로 정리하며, 탐색 예산 K가 소진될 때까지 반복한다.
핵심적인 설계는 탐색 단계와 사후 검증을 명확히 구분한다는 점이다. 검색 표본 D_S와 별도로 보류 표본 D_H를 미리 확보하고, 탐색이 종료된 뒤 연구자가 선택한 최적 스크립트 τ̂_K를 D_H에 적용해 외부 점수 S_H(τ̂_K; D_H)를 계산한다. 이 사후 평가 단계는 에이전트 루프 내부가 아니라 연구자의 별도 행동으로 정의되므로, 검색 과정에서 발생한 과적합을 외부 데이터로 검증할 수 있다.
실증 사례로 Diebold와 Shin(2019)의 pELASSO 예측 결합 문제를 선택하였다. pELASSO는 LASSO 기반으로 예측자를 선택하고, 선택된 가중치를 부분적으로 평등화하는 두 단계 정규화 과정을 포함한다. 기존 논문은 사후 최적 λ 값을 제공했지만, 실시간(look‑ahead‑free) 튜닝 규칙은 제시하지 않았다. 본 연구는 이 튜닝 규칙을 찾는 과제를 에이전트에게 부여하고, ‘train.R’ 스크립트만을 수정 가능한 대상으로 제한하였다. 평가 스크립트 ‘prepare.R’는 원 논문의 롤링‑오리진 RMSE 방식을 그대로 구현한다.
세 번의 독립 실행을 각각 K≈200 회의 탐색 예산으로 진행했으며, 초기 스크립트는 단순 평균(average)으로 설정하였다. 각 실행은 서로 다른 탐색 경로를 따라가며, 로그를 통해 다음과 같은 변형을 도출했다.
- Run 1: 안정성 선택(stability selection)과 성능 가중치(weighting) 기법을 도입, 기존 pELASSO와는 다른 변수 선택 메커니즘을 적용.
- Run 2: 순위 기반(rank‑based) 방법에 편향 보정(bias correction) 절차를 추가, 최근 시계열 편향을 실시간으로 조정.
- Run 3: 적응형 LASSO와 전방 교차검증을 유지하면서, egalitarian elastic net 혼합을 삽입해 가중치를 보다 평등하게 조정.
검색 표본(1999Q3‑2016Q4)에서는 세 모델 모두 단순 평균과 기존 pELASSO 기준을 크게 앞섰다. 상대 RMSE는 Run 1이 0.858, Run 2가 0.510, Run 3이 0.808으로, 모두 1.0 이하(기준)였다. 반면 보류 표본(2017Q1‑2025Q4)에서는 성과가 분화되었다. Run 2는 0.811(코비드 제외 시 0.739)로 가장 우수했으며, Run 1도 0.945(코비드 제외 시 0.861)으로 기준을 약간 상회했다. 기존 Diebold‑Shin의 두 베치마크는 각각 0.974 수준으로 보류 데이터에서도 비교적 안정적인 성과를 보였다. 그러나 Run 3은 1.089(코비드 제외 시 1.165)으로 오히려 평균보다 악화되었다.
로그 분석을 통해 Run 2의 편향 보정이 보류 기간 동안 지속적인 개선을 이끌었으며, 이는 실제 경제 상황(예: 경기 변동)에서 발생하는 구조적 편향을 실시간으로 보정한 결과로 해석된다. 반면 Run 3의 egalitarian elastic net 혼합은 검색 표본에서 과도한 적합을 일으켜, 보류 데이터에서는 일반화되지 못했다. Run 1은 안정성 선택이 일부 일반화 효과를 보였지만, Run 2에 비해 상대적으로 약했다.
이러한 결과는 두 가지 중요한 교훈을 제공한다. 첫째, AI 에이전트가 자동으로 새로운 사양을 발견할 수 있지만, 그 사양이 실제로 일반화 가능한지는 반드시 보류 데이터와 같은 외부 검증을 통해 확인해야 한다. 둘째, 탐색 과정 전체를 로그에 남김으로써, 연구자는 사후에 어떤 변형이 이루어졌는지, 어떤 변형이 성공했는지를 투명하게 추적할 수 있다. 이는 기존의 ‘pre‑analysis plan’과 유사하지만, 코드 수준에서 자동화된 감사 추적을 제공한다는 점에서 차별화된다.
논문은 또한 현재 프레임워크의 한계도 언급한다. 언어 모델이 사전 지식을 내포해 보류 기간과 겹치는 경우 ‘look‑ahead’ 위험이 남아 있으며, 탐색 전략이 현재는 그리디(단일 후보 제시) 방식에 머물러 있어 탐색 효율성이 제한적이다. 향후 연구에서는 진화적(population‑based) 탐색, 트리 탐색 등 보다 구조화된 전략을 도입하거나, 사후 통계적 보정(p‑value 조정, 다중 비교 보정)과 결합해 보다 견고한 결과를 도출할 필요가 있다.
결론적으로, 본 논문은 AI 에이전트 루프에 사전 정의된 계약·불변 평가·완전 로그·보류 검증을 결합함으로써, 자동화된 사양 탐색이 투명하고 검증 가능한 연구 프로세스로 전환될 수 있음을 실증적으로 보여준다. 이는 경제학뿐 아니라 다른 실증 분야에서도 자동화된 모델 탐색을 신뢰성 있게 활용할 수 있는 기반을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기