과학적 지능을 위한 계층적 다학문 벤치마크 HiSciBench
📝 원문 정보
- Title: HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery
- ArXiv ID: 2512.22899
- 발행일: 2025-12-28
- 저자: Yaping Zhang, Qixuan Zhang, Xingquan Zhang, Zhiyuan Chen, Wenwen Zhuang, Yupu Liang, Lu Xiang, Yang Zhao, Jiajun Zhang, Yu Zhou, Chengqing Zong
📝 초록 (Abstract)
대형 언어 모델과 멀티모달 기반 모델의 급속한 발전으로 과학 연구에 대한 기대가 커지고 있다. 그러나 과학적 지능은 기본 지식 이해부터 창의적 발견까지 포괄적인 능력을 요구하며, 기존 벤치마크는 이러한 계층적·다학문적 특성을 충분히 반영하지 못한다. 본 논문은 과학적 워크플로우를 5단계(문해력, 문헌 파싱, 문헌 기반 질의응답, 문헌 리뷰 생성, 과학적 발견)로 구분한 계층적 벤치마크 HiSciBench을 제안한다. 8,735개의 인스턴스를 수학·물리·화학·생물·지리·천문 등 6개 분야에 걸쳐 구성하고, 텍스트·수식·그림·표 등 멀티모달 입력과 다국어 평가를 지원한다. 주요 모델(GPT‑5, DeepSeek‑R1 등)의 평가 결과, 기본 문해력에서는 69%까지 정확도가 나오지만, 발견 단계에서는 25% 이하로 급락한다. HiSciBench은 과학적 추론 전 단계에 걸친 모델 능력을 정밀 진단할 수 있는 새로운 표준을 제공한다.💡 논문 핵심 해설 (Deep Analysis)
HiSciBench은 과학적 인텔리전스를 평가하기 위해 설계된 최초의 계층적·다학문 벤치마크라 할 수 있다. 기존의 과학 관련 평가는 주로 단일 과제(예: 논문 요약, 수식 풀이) 혹은 특정 분야에 국한된 데이터셋에 머물렀다. 이러한 접근은 실제 과학 연구가 요구하는 ‘지식 습득 → 문헌 탐색 → 질문 응답 → 종합 리뷰 작성 → 새로운 가설·발견’이라는 연속적인 흐름을 반영하지 못한다. HiSciBench은 이 흐름을 5개의 레벨(L1~L5)로 구체화함으로써 모델이 각 단계에서 어떤 종류의 인지·추론 능력을 발휘하는지 세밀하게 측정한다.데이터 구성 측면에서 저자들은 6개 주요 학문 분야를 골고루 포함시켰다. 각 분야별로 교과서 수준의 기본 개념부터 최신 연구 논문의 복잡한 실험 결과까지 다양한 난이도의 샘플을 수집했으며, 총 8,735개의 인스턴스를 확보했다. 특히 수식, 그래프, 표와 같은 멀티모달 요소를 포함시켜 모델이 텍스트 외의 정보를 통합하는 능력을 테스트한다. 또한, 영어뿐 아니라 한국어·중국어·스페인어 등 다국어 버전을 제공해 언어 다양성에 대한 강인성을 평가한다.
평가 프로토콜은 ‘의존성 인식’(dependency‑aware) 방식을 채택한다. 즉, L2 이상의 레벨은 L1·L2의 정답을 전제로 진행되며, 모델이 이전 단계에서 얻은 정보를 얼마나 효과적으로 활용하는지를 측정한다. 이는 실제 과학 연구에서 선행 지식이 새로운 탐구를 이끄는 구조와 일치한다.
실험 결과는 현재 가장 앞선 모델들조차도 고차원 과학적 추론에 큰 한계를 보임을 드러낸다. GPT‑5는 L1(과학적 문해력)에서 69%의 정확도를 기록했지만, L5(과학적 발견)에서는 22%에 불과했다. DeepSeek‑R1과 멀티모달 시스템도 비슷한 추세를 보이며, 특히 멀티모달 입력을 요구하는 L4·L5에서 성능 저하가 두드러졌다. 이는 모델이 ‘지식 재생산’에는 강하지만, ‘지식 통합·창의적 재구성’에는 아직 미숙함을 의미한다.
HiSciBench이 제공하는 진단적 가치는 두드러진다. 연구자는 특정 레벨에서의 약점을 파악해 데이터 증강, 프롬프트 설계, 혹은 새로운 아키텍처(예: 과학적 추론 전용 그래프 네트워크) 개발에 집중할 수 있다. 또한, 벤치마크 자체가 공개되어 커뮤니티가 지속적으로 확장·보완할 수 있기 때문에, 장기적으로 과학적 AI의 로드맵을 공동 정의하는 기반이 될 것이다. 다만 현재 데이터셋이 6개 분야에 국한되고, 평가 기준이 정답 기반 정확도에 의존한다는 점은 향후 다변량 평가(예: 발견 아이디어의 혁신성·실현 가능성)와 분야 확대가 필요함을 시사한다.
요약하면, HiSciBench은 과학적 인텔리전스 평가의 패러다임을 ‘단일 과제 → 연속적 워크플로우’로 전환시킨 혁신적인 시도이며, 현재 모델들의 한계를 명확히 드러내어 향후 연구 방향을 제시한다.