중국 시장 뉴스 기반 매크로·섹터 포트폴리오 벤치마크 CN‑Buzz2Portfolio
초록
CN‑Buzz2Portfolio는 2024‑2025년 중국 일일 핫뉴스 스트림을 활용해 매크로·섹터 ETF 배분 과제를 제공하는 재현 가능한 벤치마크이다. 트렌딩 뉴스 → 압축 → 인식 → 할당의 3단계 CPA 워크플로우를 통해 LLM의 의미 이해와 투자 논리 정합성을 평가한다. 9개 최신 LLM을 실험한 결과, 모델마다 매크로 서술을 포트폴리오 가중치로 전환하는 능력에 큰 차이가 있음을 확인했다.
상세 분석
본 논문은 기존 주식‑레벨 정적 벤치마크가 갖는 두 가지 근본적 한계, 즉 ‘엔티티 중심’ 설계와 ‘미국·선진시장 편중’을 극복하고자 한다. 첫째, 데이터 수집 단계에서 사전 정의된 종목 풀을 사용하지 않고, 4개 주요 중국 금융 플랫폼의 일일 Top‑20 트렌딩 토픽 전체를 그대로 입력으로 삼는다. 이를 통해 에이전트는 ‘공공 관심 흐름’ 자체를 필터링하고, 어떤 섹터가 현재 시장에 영향을 미치는지를 스스로 판단해야 한다. 둘째, 목표 자산을 개별 주식이 아니라 유동성이 충분하고 변동성이 비교적 낮은 ETF(매크로·섹터)로 제한함으로써 idiosyncratic noise를 크게 감소시킨다.
평가 프레임워크는 Compression‑Perception‑Allocation(CPA) 3단계로 구성된다. Compression 단계에서는 ‘ASum’ 요약 모델이 원시 뉴스 리스트의 클릭베이트·비금융 요소를 제거하고, 핵심 금융 이벤트만을 구조화한다. Perception 단계의 ‘Ana’는 정량적 가격 데이터 없이도 각 이벤트가 어느 섹터·지수에 어떤 방향성을 가질지 논리적으로 추론한다. 마지막 Allocation 단계의 ‘Trade’는 정량 연산을 외부 실행 엔진에 위임하고, 금액 기반 매수·비율 기반 매도 명령으로 모델의 수치 계산 오류를 방지한다.
실험은 2024년 전체와 2025년 상반기의 두 시장 상황(베어‑투‑불 전환, 고변동성 횡보)으로 나누어 진행된다. 초기 자본 10만 위안, 일일 종가 기준 리밸런싱, 거래 비용 0.01%를 적용한 소매 투자자 시뮬레이션 환경을 사용하였다. 9개 LLM은 ‘추론 지향 모델(DeepSeek‑R1, Qwen‑3‑Max‑Think 등)’과 ‘일반 지시 모델(GPT‑5, Gemini‑2.5‑Pro 등)’으로 구분해 성능을 비교했다. 결과는 다음과 같다.
- 추론 지향 모델은 복합 정책 서술을 체계적으로 압축·연결하는 능력이 뛰어나, Sharpe Ratio와 MaxDD 측면에서 전반적으로 우수했다. 특히 Qwen‑3‑Max‑Think은 매크로 테마 A에서 12.3% 누적 수익률을 기록하며, 변동성 조절에서도 안정적인 포트폴리오 곡선을 보였다.
- 일반 지시 모델은 기본적인 요약·키워드 매핑은 수행하지만, 정책·산업 연계 논리를 깊이 있게 전개하지 못해 섹터 로테이션 타이밍이 부정확했다. GPT‑5는 누적 수익률이 4.1%에 그쳤으며, 급격한 시장 변동 시 과도한 포지션 변동으로 MaxDD가 18%에 달했다.
- 모든 모델이 ‘뉴스 → 섹터’ 매핑에서 공통적으로 겪는 오류는 ‘정책 효과 지연’과 ‘다중 섹터 동시 영향’에 대한 과소평가였다. 이는 현재 LLM이 시계열적 인과관계를 명시적으로 학습하지 못한다는 점을 시사한다.
논문은 또한 데이터와 코드 공개를 통해 재현성을 확보하고, 향후 ‘시계열 인과 추론’ 및 ‘멀티에이전트 협업’ 연구에 기반을 제공한다는 점에서 의미가 크다. 한계점으로는 ETF 선택이 중국 A‑share 시장에 국한돼 글로벌 적용 가능성이 제한적이며, 시뮬레이션 환경이 실제 시장 충격(슬리피지·유동성 위험)을 완전히 반영하지 못한다는 점을 언급한다. 향후 연구에서는 보다 다양한 자산군(채권·대체투자)과 실시간 주문 실행 모듈을 결합해 LLM 기반 자동 포트폴리오 관리의 전반적 파이프라인을 확장할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기