LLM의 회계 추론 능력 평가: 개념·벤치마크·실험 분석
초록
본 논문은 회계 전용 추론을 정의하고, GLM 시리즈와 GPT‑4를 포함한 주요 대형 언어 모델(LLM)의 회계 추론 성능을 체계적으로 측정하기 위한 평가 기준과 벤치마크를 제시한다. 수리·논리·도메인 규칙을 결합한 다단계 회계 문제를 설계하고, 프롬프트 엔지니어링이 모델별 성능에 미치는 영향을 실험하였다. 결과는 GPT‑4가 가장 높은 정확도와 일관성을 보였지만, 모든 모델이 실제 기업 회계 업무에 적용하기엔 아직 부족함을 확인한다.
상세 분석
논문은 먼저 “회계 추론”을 ‘논리 추론 + 수리 추론 + 회계 규칙 적용’이라는 삼중 구조로 정의하고, 이를 평가하기 위한 세 가지 핵심 차원을 제시한다: (1) 추론 정확도 – 최종 답안이 회계 규정과 수치 계산을 모두 만족하는가, (2) 추론 일관성 – 중간 단계 결과가 논리적으로 연결되고 누적 오류가 최소화되는가, (3) 오류 전파 행동 – 다단계 연산에서 초기 실수가 후속 단계에 얼마나 확대되는가. 이러한 기준은 기존의 일반 NLU·NLG 벤치마크와 차별화되며, 회계 특유의 조건부 로직과 누적 합산을 반영한다.
데이터셋 구축에서는 GSM8K·MR‑GSM8K와 같은 수리 추론 베이스를 회계 상황에 맞게 변형하고, 재무제표 해석, 원가 계산, 감사 판단 등 네 개의 서브도메인을 포함한 4,200여 개의 질문을 생성했다. 각 질문은 ‘프롬프트’, ‘중간 추론 단계’, ‘정답’으로 구조화돼, 모델이 단계별 출력을 제공하도록 설계되었다.
실험에서는 GLM‑6B, GLM‑130B, GLM‑4, GPT‑4 네 모델을 동일한 프롬프트와 ‘Zero‑Shot’, ‘Few‑Shot’, ‘Chain‑of‑Thought’(CoT) 등 세 가지 프롬프트 엔지니어링 전략에 적용했다. 결과는 다음과 같다. GPT‑4는 CoT 프롬프트에서 전체 정확도 78 %를 기록, 특히 다단계 계산과 규칙 적용이 결합된 문제에서 가장 낮은 오류 전파율을 보였다. GLM‑130B는 규모는 크지만, 규칙 기반 추론에서 일관성 점수가 12 % 낮았으며, GLM‑6B와 GLM‑4는 전반적으로 30 % 이하의 정확도에 머물렀다. 프롬프트 엔지니어링이 모델마다 효과 차이를 보였으며, 특히 CoT가 수리·논리 복합 문제에 유리했지만, 규칙 적용이 필요한 회계 판단에서는 단순 Few‑Shot이 오히려 안정적인 결과를 도출했다.
한계점으로는 (1) 데이터셋이 주로 중국 회계 기준에 기반해 있어 국제 회계 표준(IFRS) 적용 시 일반화가 어려움, (2) 모델이 중간 단계의 논리 흐름을 명시적으로 출력하도록 강제하지 않아, 실제 업무 프로세스와의 연계성이 낮음, (3) 현재 LLM이 ‘왜’라는 설명을 제공하지 못해 감사 추적 가능성이 제한된다는 점을 들었다. 논문은 이러한 문제를 해결하기 위해 도메인‑특화 사전학습, 규칙‑기반 외부 툴(예: 심볼릭 연산 엔진)과의 하이브리드 아키텍처, 그리고 추론 과정 로그를 자동 수집하는 프레임워크를 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기