실제 세계 수학 문제를 위한 멀티모달 LLM 벤치마크 MathScape
초록
MathScape는 1,369개의 실제 사진 기반 수학 문제를 모아 만든 새로운 멀티모달 벤치마크이다. 기존의 디지털 렌더링 위주 평가와 달리, 촬영된 교과서·시험지 이미지와 텍스트를 결합해 실생활 교육 상황을 재현한다. 논문은 9개의 폐쇄형, 3개의 20B 이상 오픈소스, 7개의 소형 모델을 대상으로 다차원 평가를 수행했으며, 최첨단 모델조차 인간 수준에 미치지 못함을 확인한다. 또한 디지털 이미지에서 좋은 성능을 보인 모델이 실제 사진에서는 크게 성능이 떨어지는 현상을 보고함으로써, 현실 세계 수학 추론 평가의 필요성을 강조한다.
상세 분석
본 논문은 멀티모달 대형 언어 모델(MLLM)의 수학적 추론 능력을 실제 교육 현장에서 마주치는 이미지와 텍스트 복합 상황으로 평가하고자 하는 시도를 체계적으로 전개한다. 첫 번째 핵심 기여는 데이터 구축 파이프라인이다. 저자들은 교과서·시험지·숙제 등에서 1,369개의 문제를 추출하고, PDF 변환·이미지 렌더링·실제 촬영(프린트·스크린샷)이라는 3단계 과정을 거쳐 인간이 직접 촬영한 사진 데이터를 확보한다. 이 과정에서 이미지 품질, 조명, 왜곡 등 현실 세계에서 발생할 수 있는 노이즈를 의도적으로 포함시켜, 기존 디지털 렌더링 기반 벤치마크가 놓친 변수를 재현한다. 데이터 품질 검증을 위해 5명의 수학 전공 대학원생이 8,000달러 규모의 인건비를 투입해 정답과 해설을 검증하고, 지식 포인트별 라벨링을 3인 이상이 교차 검토하는 등 엄격한 품질 관리가 이루어졌다.
두 번째로, 문제 유형·지식 영역·교육 단계별로 세밀하게 라벨링한 점이 눈에 띈다. 선택형, 빈칸 채우기, 증명형 등 다양한 포맷을 포함하고, 대수·기하·확률·통계·함수 등 5대 영역으로 구분한다. 또한 초·중·고등학교 수준을 별도 구분해 모델이 난이도와 교육 단계에 따라 어떻게 성능 차이를 보이는지 정량화한다. 이러한 다차원 라벨링은 모델 평가 결과를 단순 정확도 이상의 인사이트로 해석할 수 있게 한다.
평가 방법론에서는 ‘답변 분할·서브답변 채점’이라는 두 단계 프로세스를 도입한다. 긴 서술형 답변을 LLM에게 자동으로 서브문제로 분할하고, 각 서브답변을 별도 프롬프트로 평가한다. 인간 평가자 3명이 자동 채점 결과와 일치하는지를 검증했으며, 97% 이상의 일치율을 기록해 자동 채점의 신뢰성을 입증한다. 이 방식은 기존의 전체 정답 일치 방식보다 세밀한 오류 원인 분석을 가능하게 한다.
실험에서는 9개의 폐쇄형 모델(GPT‑4o, GPT‑4V, GeminiPro 등)과 3개의 20B 이상 오픈소스 모델(Yi‑VL‑34B, Qwen2‑VL‑Instruct‑72B, LLaVA‑One‑Vision‑72B) 및 7개의 소형 모델을 대상으로 zero‑shot 설정에서 동일한 하이퍼파라미터(토큰 2048, top‑k 5, temperature 0.3, repetition penalty 1.05)로 평가했다. 결과는 전반적으로 최첨단 폐쇄형 모델이 가장 높은 정확도를 보였지만, 인간 평균 점수에 크게 못 미쳤으며, 특히 고난이도·증명형·기하 문제에서 급격히 성능이 하락했다. 흥미롭게도 동일 모델을 PDF 입력(디지털 렌더링)과 실제 사진 입력에 적용했을 때, PDF에서는 평균 78% 수준의 정확도를 기록했으나 사진에서는 42% 이하로 급감했다. 이는 이미지 품질·노이즈·레이아웃 변동이 모델의 시각적 이해와 수학적 추론에 큰 영향을 미친다는 것을 실증한다.
또한 모델 간 변동성을 분석한 결과, 같은 모델이라도 여러 번 실행 시 정확도 변동 폭이 5~8%에 달했으며, 이는 현재 멀티모달 LLM이 입력 이미지에 대한 안정적인 인식·해석을 보장하지 못함을 시사한다. 작은 규모 모델(예: DeepSeek‑VL‑2‑4.5B)에서는 전반적으로 20% 이하의 정확도를 보였으며, 수학 전용 파인튜닝이 적용된 Math‑LLaVA‑7B조차도 일반 LLaVA‑One‑Vision‑7B와 큰 차이를 보이지 않았다.
결론적으로, MathScape는 기존 디지털 기반 벤치마크가 간과한 ‘현실 세계 이미지’라는 중요한 변수와, 교육 단계·지식 영역·문제 형식별 세밀한 라벨링을 통해 멀티모달 LLM의 실제 활용 가능성을 보다 정확히 진단한다. 현재 모델들은 이미지 노이즈와 레이아웃 변동에 취약하며, 특히 복합적인 수학 추론이 요구되는 고난이도 문제에서 한계가 명확히 드러난다. 향후 연구는 (1) 이미지 전처리·노이즈 강인성 강화, (2) 수학 전용 체인‑오브‑생각(CoT) 프롬프트 설계, (3) 멀티태스크 파인튜닝을 통한 도메인 적응이 필요함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기