대학 물리 멀티모달 벤치마크 PhysUniBench
초록
PhysUniBench는 학부 수준 물리 문제 3,304개와 각각의 도해를 포함한 대규모 멀티모달 벤치마크이다. 8개 전공 분야와 5단계 난이도 라벨링을 통해 개방형·선다형 문제를 균형 있게 제공한다. 최신 MLLM들을 평가한 결과, GPT‑5조차 전체 정확도 51.6%에 머물며 특히 다단계 추론과 도해 해석에서 큰 어려움을 보였다.
상세 분석
본 논문은 학부 물리 교육의 핵심 역량을 평가하기 위한 멀티모달 데이터셋 구축 과정을 상세히 제시한다. 먼저 8개 전공(광학, 전자기학, 고전역학, 양자역학, 상대성, 고체물리, 열역학, 원자·입자 물리)에서 실제 대학 강의·교재에 기반한 3,304개의 문제를 수집하고, 각 문제마다 하나의 도해를 매칭시켰다. 문제는 개방형(Open‑Ended)과 선택형(Multiple‑Choice)으로 구분되며, 난이도는 1~5 단계로 균등하게 배분되었다(각 단계 약 650문제). 데이터 정제 단계에서는 전문가 검토, 자동 필터링(정답률 90% 이상인 쉬운 문제 제거), 중복 제거, 언어(중·영) 다중화 등을 수행해 품질을 확보하였다.
벤치마크 평가에서는 GPT‑4o, Qwen2.5‑VL, Intern‑S1 등 최신 MLLM 7종을 대상으로 정확도, 부분 점수, 서술형 채점 일관성 등을 측정하였다. 결과는 전반적으로 낮은 성능을 보였으며, 특히 난이도 4·5 단계와 도해 해석이 요구되는 전공(예: 고전역학·광학)에서 정확도가 30% 이하로 급락했다. GPT‑5(가칭)의 51.6% 정확도는 기존 텍스트 전용 UGPhysics(49.8%)보다 약간 높지만, 여전히 인간 수준에 미치지 못한다.
주요 인사이트는 다음과 같다. 첫째, 현재 MLLM은 수식 처리와 텍스트 추론에서는 강점을 보이지만, 물리량의 단위 변환, 상호작용 법칙 적용 등 심층적인 과학적 지식 통합에 약하다. 둘째, 도해 해석 능력이 제한적이며, 이미지에서 물리적 관계(예: 힘의 방향, 전기장 선도)를 추출해 텍스트와 연결하는 과정이 병목으로 작용한다. 셋째, 다단계 문제 해결을 위한 체계적 사고 흐름(가정 설정 → 식 도출 → 계산 → 검증) 구현이 부족하다. 마지막으로, 난이도 라벨링과 상세 해설이 제공돼 모델 훈련·미세조정에 활용 가능하지만, 현재 공개된 사전학습 데이터와는 큰 격차가 존재한다.
본 연구는 이러한 한계를 극복하기 위한 향후 방향도 제시한다. 도해‑텍스트 연계 학습을 위한 멀티태스크 프레임워크, 물리 법칙 기반의 심볼릭 연산 모듈, 그리고 단계별 추론 과정을 명시적으로 지도하는 체인‑오브‑사고(CoT) 프롬프트 설계가 필요하다. 또한, 학부 수준 문제를 넘어 대학원·연구 수준으로 확장하고, 실험 데이터와 시뮬레이션 결과를 포함한 실세계 물리 시나리오를 도입하면 모델의 일반화 능력을 더욱 검증할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기