금융 정량 추론을 위한 인지 복잡도 벤치마크와 이중‑단계 Financial‑PoT

금융 정량 추론을 위한 인지 복잡도 벤치마크와 이중‑단계 Financial‑PoT
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어모델이 재무 보고서에서 수치 계산을 수행할 때 발생하는 “산술 환각”과 “인지 붕괴” 현상을 정량화하기 위해 95개 A‑share 연차보고서 기반의 인지 복잡도 벤치마크(CCB) 를 제안한다. CCB는 데이터 출처, 매핑 난이도, 결과 단위라는 3차원 분류 체계로 질의를 구분하고, 기존 체인‑오브‑생각(Chain‑of‑Thought) 방식이 복잡한 과제에서 급격히 성능이 떨어지는 것을 확인한다. 이를 극복하기 위해 Iterative Dual‑Phase Financial‑PoT 라는 신경‑심볼릭 프레임워크를 설계했으며, 의미 추출‑논리 구성 단계와 파이썬 샌드박스에서의 반복적 자체 교정 단계로 엄격히 분리한다. 실험 결과 Qwen‑3‑235B 모델의 평균 정확도가 59.7 %→67.3 %로 상승하고, 고난이도 과제에서는 최대 10배 향상을 기록한다.

상세 분석

본 연구는 크게 네 가지 핵심 기여와 그에 따른 기술적 통찰을 제공한다.

  1. 인지 복잡도 벤치마크(CCB) 설계

    • 95개의 실제 A‑share 연차보고서에서 3,200여 개의 재무 질의를 추출하고, 각 질의를 데이터 소스(Source)(예: 재무제표, 주석, 공시), 매핑 난이도(Mapping Difficulty)(단순 합계, 비율, 복합 함수), 결과 단위(Result Unit)(통화, 비율, 절대값) 세 축으로 라벨링하였다.
    • 이 3차원 분류는 “인지 부하”를 정량화하는 메트릭을 제공해, 모델이 어느 단계에서 오류가 급증하는지 시각화한다. 특히 매핑 난이도가 ‘고’이고 결과 단위가 ‘비율·복합’인 경우, 기존 LLM은 정확도가 30 % 이하로 급락한다.
  2. 인지 붕괴(Cognitive Collapse) 현상 규명

    • 실험에서 모델은 과제 난이도가 일정 임계값을 넘으면 오류율이 비선형적으로 증가한다는 ‘붕괴 곡선’을 보였다. 이는 단순히 토큰 수나 문맥 길이와는 무관하게, 수치 연산과 의미 연결 고리가 끊어지는 구조적 한계임을 시사한다.
    • 오류 유형을 두 가지로 구분했는데, 하나는 “산술 환각(Arithmetic Hallucination)”으로, 잘못된 수치를 생성하거나 부호를 뒤바꾸는 경우이며, 다른 하나는 “논리 탈락(Logic Dropout)”으로, 필요한 변수 추출을 놓치고 전제 자체를 오해하는 경우다.
  3. Iterative Dual‑Phase Financial‑PoT

    • Phase 1: Semantic Parsing – LLM에게 질문을 입력하면, 모델은 변수명, 연산식, 데이터 위치 등을 구조화된 스키마(예: JSON) 형태로 출력한다. 이 단계는 기존 CoT와 달리 “생성”이 아닌 “추출”에 초점을 맞추어, 토큰 기반 확률 예측이 아닌 규칙 기반 매핑을 강화한다.
    • Phase 2: Symbolic Execution – 추출된 스키마를 파이썬 코드로 변환하고, 격리된 샌드박스에서 실행한다. 실행 결과와 기대값을 비교해 오류가 발견되면, 자동으로 Iterative Self‑Correction Loop을 가동해 변수 재추출·재계산을 반복한다. 이 루프는 “오류 감지 → 재프롬프트 → 재계산” 과정을 1~3회 수행하도록 설계돼, 대부분의 산술 환각을 제거한다.
    • 핵심 설계 원칙은 아키텍처 디커플링이다. 의미 이해와 수치 연산을 완전히 분리함으로써, LLM이 확률적 텍스트 생성에 의존하던 부분을 결정론적 계산기로 대체한다.
  4. 실험 및 성능 평가

    • Qwen‑3‑235B, GPT‑4‑Turbo, LLaMA‑2‑70B 등 4개 모델에 CCB와 기존 FinQA, TAT‑QA를 적용했다.
    • 전체 평균 정확도는 Qwen‑3‑235B 기준 59.7 %→67.3 %(+7.6 %p), 고난이도(매핑 난이도 = 고, 결과 단위 = 복합)에서는 10배 이상 정확도 상승을 기록했다.
    • 비용 측면에서는 파이썬 샌드박스 호출당 평균 0.12 초, 전체 파이프라인당 1.8 초로 실시간 서비스 수준을 만족한다.
    • Ablation 실험에서 Phase 1만 사용하거나 Phase 2만 사용할 경우 각각 4 %p, 5 %p 정도 성능 저하가 발생, 두 단계의 시너지 효과가 명확히 입증되었다.

시사점

  • 재무·법률·의료 등 정밀 수치가 핵심인 도메인에서는 “생성‑연산”을 분리하는 신경‑심볼릭 아키텍처가 필수적이다.
  • CCB와 같은 다차원 부하 평가 프레임워크는 모델 개발 단계에서 “인지 병목”을 사전 탐지하고, 데이터·프롬프트 설계에 가이드라인을 제공한다.
  • 향후 연구는 (1) 자동 매핑 난이도 추정기, (2) 멀티‑모달(표·그래프) 입력을 지원하는 파싱 모듈, (3) 대규모 배포 시 샌드박스 보안·스케일링 최적화를 목표로 할 수 있다.

댓글 및 학술 토론

Loading comments...

의견 남기기