수학 온톨로지를 활용한 신경기호 추론
초록
본 연구는 OpenMath 표준 온톨로지를 검색‑증강 방식으로 활용해 9 B 이하의 소형 언어 모델에 수학 정의를 주입하고, MATH 500 문제집에서 정확도와 추론 효율을 평가한다. 고품질 검색 결과가 제공될 때 모델 성능이 향상되지만, 무관한 정의가 포함되면 오히려 성능이 저하되는 양상을 확인한다.
상세 분석
이 논문은 ‘신경‑기호(Neuro‑Symbolic)’ 접근법을 구체적인 도메인 온톨로지와 결합하는 실험적 프레임워크를 제시한다. 핵심 아이디어는 언어 모델 M이 문제 P에 대해 단순히 답을 생성하는 대신, 온톨로지 K에서 P와 연관된 정의 R(P,K)를 검색해 프롬프트에 삽입함으로써 외부의 형식적 지식을 활용한다는 것이다. 이를 위해 저자는 OpenMath의 Content Dictionary(CD)를 기반으로 200여 개의 수학 분야 사전을 구축하고, 자연어 문제에서 핵심 개념을 추출한 뒤 하이브리드 검색(전통 BM25 + dense embedding)과 교차 인코더 재정렬을 적용한다.
실험은 500문제로 구성된 MATH 500 벤치마크를 사용했으며, 세 가지 모델(Gemma‑2B, Gemma‑9B, Qwen2.5‑Math‑7B)을 대상으로 ‘Baseline’(문제와 지시만)과 ‘OpenMath’(검색된 정의 추가) 두 조건을 비교한다. 평가 지표는 정확도(Accuracy)와 시도 횟수(Attempts)이며, ‘Best‑of‑N’(N=5, temperature 0.6)과 Greedy(temperature 0) 두 추론 모드를 모두 실험한다.
결과는 모델 규모와 난이도, 문제 유형에 따라 상이하게 나타난다. Qwen2.5‑Math‑7B는 이미 수학에 특화된 사전학습 덕분에 모든 난이도에서 OpenMath 정의가 긍정적인 정확도 변화를 일으켰으며, 특히 Algebra와 Geometry에서 큰 이득을 보였다. Gemma‑9B는 낮은 재정렬 임계값(노이즈 포함)에서는 성능이 감소하지만, 임계값을 높여 관련성 높은 정의만 제공하면 정확도가 회복된다. 반면 Gemma‑2B는 전반적으로 정의를 활용하지 못하고 오히려 성능이 악화되었으며, 이는 모델 용량이 정의를 해석·통합하기에 부족함을 의미한다.
난이도별 분석에서는 중간 난이도(레벨 2‑4)에서 정의가 가장 큰 도움을 주었고, 가장 쉬운 레벨에서는 모델이 이미 충분히 학습된 지식을 보유하고 있어 추가 정의가 방해가 되었다. 문제 유형별로는 Geometry와 Algebra에서 정의가 큰 효과를 보였지만, Number Theory에서는 고품질 정의가 낮은 난이도에 집중돼 있어 고난이도 문제에서는 오히려 성능 저하가 관찰되었다.
효율성 측면에서는 Best‑of‑N 모드에서 OpenMath이 평균 시도 횟수를 감소시켜 추론 속도를 약간 향상시켰다. 특히 중간 난이도에서 시도 횟수 감소가 두드러졌으며, 이는 정의가 논리적 단계를 압축해 주는 역할을 함을 시사한다. 그러나 최고 난이도에서는 시도 횟수는 감소했지만 정확도가 떨어지는 ‘거짓 자신감’ 현상이 나타났다.
전반적으로 이 연구는 온톨로지 기반 외부 지식이 소형 언어 모델의 수학적 추론을 보강할 수 있음을 실증했지만, 검색 품질, 모델 용량, 문제 난이도·유형 간 상호작용을 고려한 정교한 필터링이 필수적임을 강조한다. 향후 연구는 온톨로지와 심볼릭 엔진(SymPy, Mathematica) 간의 자동 매핑, 동적 컨텍스트 선택, 그리고 다른 전문 분야(의료, 법률)로의 일반화를 목표로 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기