다국어·멀티모달 금융 AI 평가 프레임워크 FinMMEval 2026
초록
**
FinMMEval 2026은 금융 분야 LLM을 다국어·멀티모달 환경에서 종합적으로 평가하기 위해 세 가지 과제(시험형 질문·다국어 QA·의사결정)를 제시하고, 공개 데이터와 평가 코드를 제공해 투명하고 재현 가능한 연구를 촉진한다.
**
상세 분석
**
FinMMEval 2026은 기존 금융 NLP 벤치마크가 영어 중심·텍스트 전용에 머물렀던 한계를 극복하고, 다국어·멀티모달 특성을 동시에 고려한 최초의 공유 과제로 자리매김한다. 첫 번째 과제인 Financial Exam Question Answering은 CFA·EFA 등 전문 자격시험 수준의 객관식 문제를 5개 언어(영어·중국어·아라비아어·힌디어·그리스어·일본어·스페인어)로 제공해 모델의 개념 이해와 도메인 추론 능력을 측정한다. 정확도(Accuracy)만을 평가 지표로 삼아 언어별 성능 비교가 용이하도록 설계되었으며, 언어 선택을 자유롭게 함으로써 다언어 학습·전이 연구를 장려한다.
두 번째 과제인 PolyFiQA는 SEC 10‑K/10‑Q 보고서와 해당 기업에 대한 다국어 뉴스(영·중·일·스페인·그리스)를 결합한 복합 문서 집합을 제공한다. Easy와 Expert 두 난이도로 구분해 사실·수치 질문부터 다문서·다언어 추론까지 포괄한다. 답변은 100단어 이하의 요약 형태로 요구되며, ROUGE‑1을 주된 평가 지표로, BLEURT·사실 일관성 점수를 보조 지표로 활용한다. 이는 LLM이 텍스트·표·숫자 정보를 통합해 근거 기반 답변을 생성하는 능력을 정량화한다.
세 번째 과제인 Financial Decision Making은 BTC와 TSLA의 일일 시장 상황(가격, 뉴스 요약, 모멘텀 라벨, 10‑K/10‑Q 파일) 데이터를 실시간 스트리밍 형태로 제공한다. 모델은 매일 Buy·Hold·Sell 중 하나를 선택하고, 50단어 이하의 이유를 제시한다. 평가에서는 누적 수익(Cumulative Return)을 기본으로 Sharpe Ratio, Maximum Drawdown, Daily/Annualized Volatility 등 위험·안정성 지표를 함께 사용한다. 이는 순수 QA를 넘어 “추론 → 행동” 파이프라인을 검증함으로써 실제 투자 의사결정 시스템에 대한 실용성을 측정한다.
데이터는 모두 금융 전문가·언어 원어민이 검증했으며, MIT 라이선스로 공개돼 연구 재현성을 높인다. 또한, 다국어·멀티모달 통합 평가라는 새로운 패러다임을 제시함으로써, 모델 설계 시 언어 간 전이 학습, 멀티모달 인코더, 증거 기반 추론 메커니즘 등을 동시에 고려하도록 유도한다. 한계점으로는 현재 5~7개 언어에 국한돼 있어 저자원 언어 확장이 필요하고, 멀티모달 요소가 텍스트와 표(숫자) 중심에 머물러 차트·그래프 등 시각 정보는 아직 포함되지 않았다. 향후 버전에서는 이러한 시각 자료와 더 많은 언어를 추가해 글로벌 금융 AI 평가 생태계를 확대할 계획이다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기