FinTradeBench 금융거래 신호 통합 추론 벤치마크

본 논문은 금융 의사결정에 필요한 복합적인 정보원을 동시에 고려할 수 있는 새로운 LLM 벤치마크인 FinTradeBench를 제안한다. 기존의 재무 QA 데이터셋은 주로 회계 보고서와 같은 텍스트 기반 자료에 초점을 맞추어, 가격·거래량으로부터 도출되는 시계열 거래신호를 평가 대상으로 삼지 않았다. 이러한 한계는 실제 투자 분석에서 펀더멘털과 시장 동향을 동시에 해석해야 하는 상황과 괴리를 만든다. FinTradeBench는 이러한 격차를 메우기 위해, NASDAQ‑100에 포함된 100개 기업의 2015‑2025년 10년치 데이터를 활용한다. 각 기업‑분기마다 SEC 10‑K/10‑Q 파일에서 추출한 회계 기반 지표(ROA, ROE, 부채비율, 밸류에이션 등)와, 일일 OHLCV 데이터를 기반으로 계산한 모멘텀, 변동성, 이동평균, 드로우다운 등 거래신호를 모두 포함한다. 벤치마크는 질문을 세 가지 카테고리로 구분한다. 펀더멘털‑전용(F‑type) 질문은 회계 지표만을 이용해 기업 가치를 평가하도록 설계되었으며, 거래신호‑전용(T‑type) 질문은 가격·거래량 지표만을 사용해 시장 동향을 판단하도록 만든다. 마지막으로 하이브리드(FT‑type) 질문은 두 신호를 결합해, 예를 들어 “NVIDIA의 2025년 7월 풀백이 매수 기회인가?”와 같이 펀더멘털과 시장 신호를 동시에 고려하도록 요구한다. 이러한 설계는 모델이 어느 영역에서 강점·약점을 보이는지 정밀히 분석할 수 있게 한다. 데이터와 질문을 대규모로 구축하기 위해 ‘캘리브레이션‑스케일링’ 파이프라인을 도입했다. 첫 단계에서는 도메인 전문가가 150개의 시드 질문(각 카테고리 50개)을 작성하고, 각 질문에 대해 6가지 프롬프트 변형을 적용해 14개 LLM에서 다중 응답을 생성한다. 모델 내부에서 자체 필터링을 수행해 가장 높은 사실·추론 일관성을 보이는 응답을 선택하고, 독립 LLM 감사자를 통해 수치 주장에 대한 정확성을 SUPPORTED/CONTRADICTED/NOT FOUND 로 라벨링한다. 이후 인간 전문가가 5점 척도로 사실성, 완전성, 관련성, 명료성을 평가하고, 이 평가를 기준으로 Claude Sonnet 4.5 기반 LLM 판정자를 프롬프트 튜닝해 인간‑LLM 정렬을 달성한다(MAE < 10%). 최종적으로 캘리브레이션된 판정자를 이용해 1,400개의 질문에 대해 자동화된 금답을 생성·검증함으로써 대규모 확장성을 확보했다. 실험에서는 14개 LLM을 제로샷(검색 미사용)과 RAG(검색 강화) 두 환경에서 평가했다. RAG는 텍스트 기반 펀더멘털 질문에서 평균 정확도가 37%p 상승하고, 하이브리드 질문에서는 55%p 상승하는 등 큰 효과를 보였지만, 순수 거래신호 질문에서는 개선 효과가 거의 없거나 오히려 성능이 감소했다. 이는 현재 LLM이 텍스트 이해와 논리적 추론에는 강점을 보이지만, 시계열 데이터의 정량적 해석·수치 연산, 특히 변동성·모멘텀 같은 복합 지표를 다루는 능력은 아직 부족함을 시사한다. 모델별 성능 차이가 크며, 대형 모델일수록 검색 활용 시 이득이 크지만, 소형 모델은 전반적으로 낮은 정확도를 기록했다. 이러한 결과는 금융 AI 연구에서 두 가지 중요한 방향성을 제시한다. 첫째, 시계열·수치 데이터에 특화된 프롬프트 설계와 외부 툴(예: 시계열 분석 라이브러리) 연동이 필요하다. 둘째, 멀티모달(텍스트 + 시계열) 정합성을 평가할 수 있는 새로운 평가 메트릭과 벤치마크가 요구된다. FinTradeBench는 이러한 미래 연구를 위한 기반을 제공하며, LLM이 실제 금융 의사결정 지원에 활용될 때 반드시 넘어야 할 ‘수치·시간‑시계열’ 장벽을 명확히 드러낸다.

FinTradeBench 금융거래 신호 통합 추론 벤치마크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기