경량형 대형 언어 모델을 활용한 금융 텍스트 감성 분류 최적화

읽는 시간: 3 분
...

📝 원문 정보

  • Title: Fine-tuning of lightweight large language models for sentiment classification on heterogeneous financial textual data
  • ArXiv ID: 2512.00946
  • 발행일: 2025-11-30
  • 저자: Alvaro Paredes Amorin, Andre Python, Christoph Weisser

📝 초록 (Abstract)

대형 언어 모델(LLM)은 트위터, 뉴스, 보고서 등 다양한 금융 텍스트에서 신호를 포착하는 데 중요한 역할을 하지만, 높은 연산 비용과 제한된 데이터로 인해 접근성이 낮다. 본 연구는 공개된 경량형 LLM인 DeepSeek‑LLM 7B, Llama‑3 8B Instruct, Qwen‑3 8B를 기존 금융 NLP 베이스라인인 FinBERT와 비교하여, 규모·출처·형식·언어가 다른 다섯 개 공개 데이터셋(FinancialPhraseBank, Financial Question Answering, Gold News Sentiment, Twitter Sentiment, Chinese Finance Sentiment)에서 감성 분류 성능을 평가한다. 5 %의 학습 데이터만 사용한 경우에도 Qwen‑3 8B와 Llama‑3 8B가 대부분의 상황에서 최고 성능을 보였으며, 이는 제로샷·few‑shot 설정에서도 동일했다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 현재 금융 분야에서 LLM 활용이 급증하고 있음에도 불구하고, 대부분의 연구가 대규모 클라우드 인프라와 사유 데이터에 의존한다는 현실적인 제약을 지적한다. 이를 극복하고자 연구팀은 ‘경량형’이라는 개념을 도입했는데, 이는 파라미터 수가 수억에서 수십억 수준에 머물면서도 일반적인 GPU 한 대 혹은 저가 클라우드 인스턴스에서 학습·추론이 가능한 모델을 의미한다. 선택된 세 모델은 각각 DeepSeek‑LLM 7B(중국 기업 기반), Llama‑3 8B Instruct(오픈AI와 메타가 공동 개발한 최신 인스트럭션 튜닝 모델), Qwen‑3 8B(알리바바·달리 그룹이 공개한 다국어 지원 모델)이며, 모두 오픈소스 라이선스로 제공되어 재현 가능성을 높인다.

비교 대상인 FinBERT는 금융 도메인에 특화된 BERT 기반 모델로, 기존 연구에서 최고 수준의 성능을 기록했지만, 파인튜닝 시 대규모 GPU 메모리와 장시간 학습이 요구된다. 연구자는 동일한 파인튜닝 파이프라인을 적용해 각 모델을 5 %, 20 %, 100 % 학습 데이터 비율로 학습시켰으며, 제로샷(프롬프트만 제공)과 few‑shot(몇 개의 레이블된 예시 제공) 두 시나리오를 모두 실험했다.

평가 지표는 정확도, F1‑score, 그리고 매크로 평균을 사용했으며, 결과는 Qwen‑3 8B와 Llama‑3 8B가 특히 데이터가 제한된 5 % 상황에서도 FinBERT를 능가함을 보여준다. 특히 다국어 데이터셋인 Chinese Finance Sentiment에서는 Qwen‑3 8B가 현저히 높은 정확도를 기록했으며, 이는 모델이 다국어 사전 학습과 인스트럭션 튜닝을 동시에 수행한 덕분으로 해석된다. 또한, 트위터와 뉴스와 같이 비정형·짧은 텍스트에서는 Llama‑3 8B가 문맥 이해와 감성 추론에서 우수한 성능을 보였다.

이러한 결과는 경량형 LLM이 제한된 컴퓨팅 자원과 적은 라벨 데이터만으로도 금융 텍스트 감성 분석에서 실용적인 성능을 달성할 수 있음을 시사한다. 실무에서는 비용 효율적인 모델 배포가 가능해지며, 학계에서는 오픈소스 모델을 활용한 재현 연구가 활발히 진행될 여지를 제공한다. 다만, 현재 실험은 공개 데이터에 한정됐으며, 실제 거래 환경에서의 실시간 스트리밍 데이터나 고빈도 거래와 연계된 감성 분석에는 추가 검증이 필요하다. 또한, 경량 모델의 파라미터 수가 여전히 수억 수준이므로, 극히 저사양 환경(예: 모바일 디바이스)에서는 추가 압축 기법이 요구될 것이다.

📄 논문 본문 발췌 (Translation)

대형 언어 모델(LLM)은 트위터, 뉴스 기사, 보고서, 마이크로블로그와 같은 복잡하고 이질적인 금융 텍스트 데이터를 통해 신호를 포착함으로써 금융 시장 분석에서 점점 더 중요한 역할을 수행하고 있다. 그러나 이러한 모델의 성능은 대규모 연산 자원과 독점적인 데이터셋에 크게 의존하는데, 이는 비용이 많이 들고 접근이 제한되어 많은 연구자와 실무자에게 접근성을 저해한다. 현실적인 상황을 반영하기 위해 본 연구는 제한된 연산 자원으로도 동작하도록 설계된 공개된 경량형 LLM이 다양한 규모·출처·형식·언어의 금융 데이터셋에서 감성 이해를 일반화할 수 있는지를 조사한다. 우리는 벤치마크 금융 자연어 처리(NLP) 모델인 FinBERT와 세 개의 오픈소스 경량형 LLM인 DeepSeek‑LLM 7B, Llama‑3 8B Instruct, Qwen‑3 8B를 비교하였다. 실험에 사용된 다섯 개 공개 데이터셋은 FinancialPhraseBank, Financial Question Answering, Gold News Sentiment, Twitter Sentiment, Chinese Finance Sentiment이다. 실험 결과, 특히 Qwen‑3 8B와 Llama‑3 8B가 대부분의 시나리오에서 최고의 성능을 보였으며, 이는 전체 학습 데이터의 5 %만 사용했을 때도 동일하게 나타났다. 이러한 결과는 제로샷 및 few‑shot 학습 상황에서도 유지되었다. 우리의 연구 결과는 경량형 오픈소스 LLM이 제한된 데이터와 연산 환경에서도 금융 텍스트 감성 분류에 효과적으로 활용될 수 있음을 시사한다.

📸 추가 이미지 갤러리

F1_comparison_combined.png final_results.png plot.png zerofewshotsft_image.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키