제로샷 LLM 에이전트 다중합성으로 기업 공시 분류 성능 향상

이 연구는 기업 공시 텍스트를 활용해 다음날 주가 방향을 예측하는 분류 문제에 제로샷 대형 언어모델(LLM) 에이전트를 다중으로 활용하는 새로운 프레임워크를 제시한다. 기존 연구에서는 LLM을 파인튜닝하거나 대규모 라벨링이 필요했지만, 본 논문은 파인튜닝 없이도 서로 다른 프롬프트를 적용한 세 가지 에이전트가 제공하는 라벨, 신뢰도, 이유를 메타분류기로 통합함으로써 성능을 크게 향상시켰다. 먼저, 세 가지 금융 관점을 반영한 프롬프트(성과, 가이던스, 리스크)를 설계하고, 각각 Qwen2.5‑3B‑Instruct, Llama‑3.2‑3B‑Instruct, Qwen2.5‑72B‑Instruct 모델에 적용한다. 각 에이전트는 동일한 공시 텍스트를 읽고, 긍정·중립·부정 라벨과 해당 라벨에 대한 신뢰도 점수(0‑1), 그리고 한 문장 이유를 JSON 형태로 반환한다. 신뢰도는 토큰 로그확률을 기하 평균해 산출하거나, 모델이 제공하는 숫자형 신뢰도를 그대로 사용한다. 오류가 발생하면 재시도 후 중립 라벨과 0 신뢰도로 대체한다. 에이전트 출력은 12개의 특성으로 변환된다. 여기에는 세 라벨, 세 신뢰도, 다수결 라벨, 라벨별 카운트, 동의 에이전트 수, 최고·둘째 신뢰도 차이, 그리고 가장 신뢰도 높은 에이전트가 어느 관점인지에 대한 이진 플래그가 포함된다. 이러한 특성을 입력으로 로지스틱 회귀 메타분류기를 학습한다. 메타분류기는 L2 정규화를 적용하고, liblinear 솔버를 사용해 효율적으로 최적화한다. 학습은 2018‑2024년 사이에 발표된 18,420건의 미국 기업 공시 데이터를 시계열적으로 60% 훈련, 20% 검증, 20% 테스트로 분할해 진행한다. 테스트 셋은 3,684건이며, 양의 다음날 수익률 비율은 53.1%로 약간의 클래스 불균형을 보인다. 실험 결과, 개별 에이전트 중 가이던스 프롬프트가 가장 높은 성능(균형 정확도 0.561)을 보였고, 리스크 에이전트는 가장 낮았다. 그러나 세 에이전트를 단순 다수결로 합친 경우에도 모든 단일 에이전트를 능가했으며, 신뢰도 가중 투표는 다수결보다 더 좋은 결과(균형 정확도 0.584)를 냈다. 최종 메타분류기는 균형 정확도 0.612, 전체 정확도 0.624, 매크로 F1 0.617를 기록해 모든 베이스라인을 앞섰다. 특히 라벨이 완전히 일치하는 경우(3‑agent agreement)보다 2‑1 분할이나 고충돌 상황에서 메타분류기의 개선폭이 크게 나타났으며, 이는 에이전트 간 의견 차이를 구조화된 정보로 활용한 결과이다. 정성적 분석에서는 “실적 호조 + 약한 가이던스”, “강한 매출 성장 + 법적 위험” 등 상반된 신호가 섞인 공시에서 메타분류기가 크게 이득을 보였으며, 단일 에이전트는 자신이 강조한 부분에 과도하게 편향되는 경향을 보였다. 반면, 정보가 거의 없는 일상적인 보고서(예: 정기 보고)에서는 모든 방법의 성능이 제한적이었다는 점도 확인되었다. 결론적으로, 제로샷 LLM 에이전트는 서로 보완적인 금융 정보를 포착하고, 경량 메타분류기를 통해 이들을 효과적으로 통합함으로써 기업 공시 기반 주가 방향 예측 성능을 크게 향상시킬 수 있음을 입증한다. 또한, 신뢰도 추정과 에이전트 간 합의 구조를 활용한 학습 기반 집계가 단순 투표보다 실질적인 이점을 제공한다는 점에서 향후 금융 텍스트 분석에 다중 에이전트 제로샷 접근법이 유망함을 시사한다.

제로샷 LLM 에이전트 다중합성으로 기업 공시 분류 성능 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기