LLM의 풋남 스타일 수학 경연 성과 분석
초록
구글 딥마인드가 공개한 96문제·576해답 풋남형 데이터셋을 활용해 Gemini 2.5 Pro 등 6개 최신 LLM의 풀이 능력을 인간 전문가가 0~10점 척도로 평가하였다. Gemini 시리즈가 전반적으로 높은 점수를 받았으며, 특히 Gemini‑2.5‑pro‑03‑25는 평균 8.7점으로 가장 우수했다. 반면 DeepSeek r1은 평균 4.5점에 머물렀다. 문제 난이도와 카테고리별 성적을 분석한 결과, 분석·불등식 분야가 가장 어려웠고, 선형대수는 비교적 쉬운 편이었다. 전체적으로 데이터셋 난이도는 2024년 실제 풋남 대회보다 다소 낮으며, LLM은 인간과 유사한 직관을 보이지만 완전한 엄밀증명에서는 아직 한계가 있다.
상세 분석
본 논문은 구글 딥마인드가 제공한 “Putnam‑like” 데이터셋을 기반으로, 최신 대형 언어 모델(Large Language Model, LLM) 6종(gemini‑2.5‑flash‑04‑17, gemini‑2.5‑pro‑03‑25, o3‑mini‑high, o4‑mini‑high, r1, sonnet‑3.7)의 문제 해결 능력을 정량·정성적으로 평가한다. 데이터셋은 96개의 풋남 수준 문제를 8개의 난이도 레벨(1~6)과 7개의 수학 분야(선형대수, 추상대수, 해석·불등식, 이산수학, 확률, 정수론, 다항식)로 구분하고, 각 문제마다 최대 10점 만점의 채점 루브릭을 제공한다. 인간 전문가와 자동 채점 모델(gemini‑2.5‑pro_20250718)이 모두 채점했으며, 본 연구에서는 인간 전문가 점수를 ‘가장 정확한’ 것으로 채택한다.
점수 분포를 살펴보면 전체 576개 해답 중 46%가 만점(10점)이며, 0점 비율은 15%에 불과해 모델들이 대부분 기본적인 풀이 흐름을 잡아낸다. 그러나 3~7점 구간이 풋남 실제 참가자들의 점수 분포와 비교했을 때 과도하게 많이 나타나는데, 이는 채점 루브릭이 부분점수를 세밀하게 부여하도록 설계돼 인간 풀이와는 다른 ‘부분 완성’ 형태의 점수 체계가 반영된 결과이다.
모델별 성능 차이는 뚜렷하다. gemini‑2.5‑pro‑03‑25는 평균 8.7점, 최고 10점에 가까운 점수를 기록했으며, 특히 난이도 5·6 레벨에서도 평균 9.0점 이상을 유지해 고난도 문제에서도 일관된 엄밀성을 보여준다. gemini‑2.5‑flash‑04‑17도 평균 7.6점으로 준수하지만, 답변이 장황하고 불필요한 전개가 포함되는 경향이 있다. 오픈AI 계열(o3‑mini‑high, o4‑mini‑high)은 평균 5.6~6.0점대로 중간 수준이며, 부분점수가 많이 나타나 아이디어 제시는 잘하지만 증명 전개가 미흡한 경우가 빈번하다. 특히 o4‑mini‑high는 o3‑mini‑high보다 부분점수가 적고 중간점수가 약간 높은데, 이는 모델 세대가 진보하면서 증명 완성도가 향상된 것으로 해석된다. DeepSeek r1은 평균 4.5점에 머물며, 대부분 ‘스케치’ 수준에 그쳐 상세한 계산이나 논리 전개가 결여돼 있다. Claude sonnet‑3.7은 평균 6.0점으로, 가독성이 높고 문장이 깔끔하지만 가끔 핵심 개념을 오해하거나 중요한 단계가 누락되는 문제가 발견된다.
난이도별 분석에서는 레벨 1·2가 75% 이상 7점 이상을 획득해 비교적 쉬운 편이며, 레벨 5·6이 현저히 낮은 평균 점수를 보인다. 흥미롭게도 레벨 4가 레벨 3보다 평균 점수가 높아, 인간이 인지한 난이도와 모델이 실제로 겪는 난이도 사이에 차이가 있음을 시사한다. 카테고리별로는 선형대수가 가장 높은 평균 점수(≈9점)를 기록한 반면, 해석·불등식과 다항식 분야는 평균 점수가 7점 이하로 낮아, 복잡한 계산이나 정밀한 부등식 추론이 모델에게 큰 도전임을 보여준다.
또한, 동일 모델을 2024년 실제 풋남 문제에 적용했을 때 평균 점수가 데이터셋보다 현저히 낮았다(예: gemini‑2.5‑flash‑04‑17는 4.3점). 이는 데이터셋의 난이도가 실제 대회보다 약간 낮으며, 모델이 훈련 데이터에 포함된 유사 문제에 대해 과적합된 가능성을 암시한다.
통계적 검증으로는 Kolmogorov‑Smirnov 검정이 o4‑mini‑high와 sonnet‑3.7의 점수 분포가 거의 동일함을 p=0.998로 확인했으며, 레벨 4와 3 사이의 차이는 t‑검정으로 p=0.02의 유의미한 차이를 보였다.
결론적으로, 최신 Gemini 모델은 현재 LLM 중 가장 성숙한 수학적 추론 능력을 보이며, 부분점수 체계에서도 높은 비중을 차지한다. 그러나 완전한 엄밀증명, 특히 정형화된 형식(예: Lean)으로의 전환에는 아직 한계가 남아 있다. 향후 연구에서는 자동 채점과 인간 채점 간의 상관관계 분석, 그리고 LLM이 생성한 증명을 형식 검증기에 연결하는 작업이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기