수학 문제 해결 능력과 단계별 평가 성능의 연관성
본 연구는 GPT‑4와 GPT‑5를 활용해 동일한 수학 문제에 대해 풀이와 단계별 오류 진단 두 작업을 수행하고, 문제를 올바르게 해결한 경우와 그렇지 않은 경우의 평가 정확도 차이를 분석한다. 결과는 문제를 정확히 풀면 오류 진단 정확도가 크게 상승하지만, 전체적인 단계별 진단은 여전히 난이도가 높으며 추가적인 추적·모니터링 능력이 필요함을 보여준다.
저자: Liang Zhang, Yu Fu, Xinyi Jin
본 논문은 대형 언어 모델(LLM)이 수학 교육에서 문제 해결자이자 학습자 추론을 평가하는 도구로 활용될 때, 두 역할 간의 연관성을 규명하고자 한다. 연구자는 PROCESSBENCH라는 인간 주석 기반 벤치마크에서 GSM8K와 MATH 두 서브셋을 선택했으며, 각각 400개의 아이템을 사용해 총 800개의 문제에 대해 실험을 진행하였다. 각 아이템은 원문 문제, 단계별 풀이(trace), 그리고 가장 처음 오류가 발생한 단계의 인덱스(0‑based) 혹은 오류가 없을 경우 –1이라는 라벨을 포함한다.
실험 설계는 동일한 ‘수학 튜터’ 시스템 프롬프트를 공유하는 두 가지 작업을 포함한다. 첫 번째 작업은 모델에게 원문 문제만 제시하고 최종 답을 생성하도록 하는 ‘문제 해결’ 과제이며, 두 번째 작업은 원문 문제와 함께 인간이 만든 단계별 풀이를 제공하고 가장 초기 오류 단계의 인덱스를 정확히 예측하도록 요구하는 ‘단계별 평가’ 과제이다. 두 작업 모두 GPT‑4와 GPT‑5 두 모델을 사용했으며, 각 모델·작업·데이터셋 조합에 대해 3번씩 실행해 평균값을 보고한다.
성능 측정 지표는 다음과 같다. 문제 해결에서는 최종 답이 정답과 일치하는 비율을 ‘정답 정확도’로, 단계별 평가는 예측 인덱스가 인간 라벨과 정확히 일치하는 비율을 ‘정확도’로 정의한다. 또한 오류가 포함된 샘플과 오류가 없는 샘플을 구분해 각각의 정확도와 두 값을 조화 평균한 F1 점수를 제시한다. 마지막으로 ‘solve‑assess gap’이라는 파생 지표를 도입해 문제 해결 정확도에서 평가 F1을 뺀 값을 계산, 두 능력 간 격차를 정량화한다.
전체 결과는 두 모델 모두 GSM8K에서는 문제 해결 정확도가 94.9% (GPT‑4)와 97.4% (GPT‑5)로 매우 높았으나, MATH에서는 29.8%와 30.5%로 급격히 떨어졌다. 반면 단계별 평가 정확도는 GSM8K에서 46.4% (GPT‑4)와 49.3% (GPT‑5), MATH에서는 34.5%와 38.6%에 그쳤다. 즉, 문제 해결에 비해 단계별 오류 진단은 현저히 어려운 과제임을 확인할 수 있다.
핵심적인 분석은 ‘solve‑correct’와 ‘solve‑incorrect’ 그룹별 평가 정확도 차이다. GSM8K에서 GPT‑4는 풀이를 맞춘 경우 48.6%의 평가 정확도를 보였지만, 풀이를 틀린 경우는 6.6%에 불과했다. GPT‑5는 각각 50.2%와 16.1%를 기록했다. MATH에서도 유사한 패턴이 나타났으며, χ² 검정과 Fisher 정확도 검정 모두 p < 0.001로 통계적으로 유의미했다. 효과 크기는 34~46 퍼센트 포인트에 달했으며, 95% 신뢰구간이 모두 0을 제외했다는 점에서 결과의 견고함을 보여준다.
오류 존재 여부에 따른 세부 성능을 살펴보면, 오류가 없는 풀이에 대해서는 72.9%~97.1%의 높은 정확도를 보였지만, 오류가 포함된 경우는 4.7%~10.0%에 머물렀다. 따라서 전체 평가 정확도가 중간 정도이지만, 실제 교육 현장에서 중요한 ‘오류 위치 파악’ 능력은 크게 부족한 상황이다.
정성적 분석에서는 네 가지 가능한 결과 조합을 검토했다. ‘solve‑correct, assess‑incorrect’ 사례에서는 모델이 정답을 도출했음에도 가장 초기 오류를 잘못 지목하는 경우가 있었으며, 이는 모델이 전체 논리 흐름을 추적하고 초기 오류를 정확히 식별하는 메타‑인지 능력이 제한적임을 의미한다. 반대로 ‘solve‑incorrect, assess‑correct’ 사례에서는 모델이 원문 문제를 틀리게 풀었음에도 benchmark 풀이가 완전하거나 오류 위치를 정확히 판단하는 경우가 있었다. 이러한 사례는 LLM이 문제 자체와 별개로 제공된 풀이를 평가하는 능력은 어느 정도 존재하지만, 두 능력을 통합적으로 활용하는 데는 아직 격차가 있음을 시사한다.
결론적으로, 본 연구는 LLM의 문제 해결 능력이 뛰어날수록 단계별 오류 진단 성능도 향상된다는 실증적 근거를 제공한다. 그러나 현재의 단계별 평가 정확도는 특히 오류가 포함된 상황에서 매우 낮으며, ‘solve‑assess gap’이 크게 존재한다는 점에서 추가적인 기술적 보완이 필요하다. 향후 연구는 단계 추적, 중간 결과 검증, 오류 유형별 프롬프트 최적화 등 메타‑인지적 모니터링 기능을 강화함으로써 LLM이 교육 현장에서 보다 신뢰할 수 있는 형성 평가 도구로 자리매김하도록 해야 한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기