Forecasting high-impact research topics via machine learning on evolving knowledge graphs

Reading time: 4 minute
...
Featured Image

📝 Abstract

The exponential growth in scientific publications poses a severe challenge for human researchers. It forces attention to more narrow sub-fields, which makes it challenging to discover new impactful research ideas and collaborations outside one’s own field. While there are ways to predict a scientific paper’s future citation counts, they need the research to be finished and the paper written, usually assessing impact long after the idea was conceived. Here we show how to predict the impact of onsets of ideas that have never been published by researchers. For that, we developed a large evolving knowledge graph built from more than 21 million scientific papers. It combines a semantic network created from the content of the papers and an impact network created from the historic citations of papers. Using machine learning, we can predict the dynamic of the evolving network into the future with high accuracy (AUC values beyond 0.9 for most experiments), and thereby the impact of new research directions. We envision that the ability to predict the impact of new ideas will be a crucial component of future artificial muses that can inspire new impactful and interesting scientific ideas.

💡 Analysis

The exponential growth in scientific publications poses a severe challenge for human researchers. It forces attention to more narrow sub-fields, which makes it challenging to discover new impactful research ideas and collaborations outside one’s own field. While there are ways to predict a scientific paper’s future citation counts, they need the research to be finished and the paper written, usually assessing impact long after the idea was conceived. Here we show how to predict the impact of onsets of ideas that have never been published by researchers. For that, we developed a large evolving knowledge graph built from more than 21 million scientific papers. It combines a semantic network created from the content of the papers and an impact network created from the historic citations of papers. Using machine learning, we can predict the dynamic of the evolving network into the future with high accuracy (AUC values beyond 0.9 for most experiments), and thereby the impact of new research directions. We envision that the ability to predict the impact of new ideas will be a crucial component of future artificial muses that can inspire new impactful and interesting scientific ideas.

📄 Content

과학 논문의 기하급수적인 증가가 인간 연구자들에게 심각한 도전을 제기하고 있다. 논문의 양이 폭발적으로 늘어나면서 연구자들은 점점 더 좁은 하위 분야에만 집중할 수밖에 없게 되었고, 그 결과 자신의 전공 분야 밖에서 새로운 영향력 있는 연구 아이디어나 협업 기회를 발견하는 것이 매우 어려워졌다. 현재 존재하는 여러 방법들은 과학 논문의 향후 인용 횟수를 예측할 수는 있지만, 이러한 예측은 논문이 이미 완성되어 출판된 뒤에야 적용될 수 있다. 즉, 아이디어가 처음 구상된 시점이 아니라, 아이디어가 구체화되어 논문 형태로 정리되고 나서야 인용 네트워크를 통해 영향력을 평가하게 된다.

본 연구에서는 아직 출판되지 않은, 연구자들이 아직 제시하지도 않은 아이디어의 시작 단계에서 그 아이디어가 가질 잠재적 영향을 예측하는 새로운 방법을 제시한다. 이를 위해 우리는 2,100만 편이 넘는 과학 논문으로부터 구축된 대규모 진화 지식 그래프(knowledge graph)를 개발하였다. 이 지식 그래프는 두 가지 주요 서브 네트워크로 구성된다. 첫 번째는 논문의 본문 내용으로부터 추출된 의미 네트워크(semantic network)이며, 여기에는 논문에 등장하는 핵심 개념, 키워드, 그리고 이들 간의 의미적 연관성이 포함된다. 두 번째는 과거 논문 인용 기록으로부터 형성된 영향 네트워크(impact network)로, 각 논문이 다른 논문에 얼마나 자주 인용되었는지를 기반으로 하여 논문 간의 영향력 흐름을 모델링한다.

우리는 머신러닝, 특히 그래프 신경망(Graph Neural Network)과 시계열 예측 모델을 결합한 하이브리드 학습 프레임워크를 적용하였다. 이 프레임워크는 현재 시점까지 관측된 지식 그래프의 구조적 변화를 학습하고, 이를 토대로 미래의 그래프 진화를 고정밀도로 예측한다. 실험 결과, 대부분의 실험 설정에서 예측 정확도는 AUC(Area Under the Curve) 값이 0.9를 초과하는 매우 높은 수준을 기록하였다. 이는 새로운 연구 방향이 향후 학술 커뮤니티 내에서 얼마나 큰 파급 효과를 일으킬지를 사전에 정량적으로 판단할 수 있음을 의미한다.

우리의 접근 방식은 아직 논문으로 정리되지 않은 아이디어의 ‘시작점(onset)’을 그래프 상의 잠재 노드 혹은 잠재 엣지 형태로 모델링한다는 점에서 혁신적이다. 예를 들어, 특정 연구자가 아직 발표하지 않은 새로운 가설이나 실험 설계가 기존 문헌의 어느 부분과 연관될 가능성이 높은지를 그래프 구조상에서 추정하고, 그 추정된 연결이 향후 인용 네트워크에 미칠 영향을 시뮬레이션한다. 이렇게 함으로써 연구자는 자신의 아이디어가 학문 전반에 어떤 파급 효과를 가질지, 그리고 어느 분야와의 교차점에서 가장 큰 시너지를 낼 수 있을지를 사전에 파악할 수 있다.

우리는 이러한 ‘아이디어 영향력 예측’ 능력이 미래의 인공지능 기반 뮤즈(artificial muse) 시스템의 핵심 구성 요소가 될 것이라고 전망한다. 인공지능 뮤즈는 방대한 과학 지식 베이스와 실시간 업데이트되는 인용 데이터를 활용하여, 인간 연구자에게 아직 탐구되지 않은, 그러나 높은 잠재적 가치를 지닌 연구 주제와 실험 아이디어를 제안한다. 궁극적으로는 이러한 시스템이 연구자들의 창의적 사고를 촉진하고, 학문적 혁신의 속도를 가속화하며, 다양한 분야 간의 융합 연구를 활성화하는 데 기여할 것으로 기대한다.

요약하면, 우리는 2,100만 편 이상의 논문을 기반으로 구축한 대규모 진화 지식 그래프와 고성능 머신러닝 모델을 이용해, 아직 출판되지 않은 아이디어의 잠재적 영향을 정량적으로 예측하는 방법을 제시하였다. 이 방법은 기존의 인용 기반 예측이 갖는 ‘사후 평가’ 한계를 극복하고, 연구 초기 단계에서부터 전략적 의사결정을 지원한다는 점에서 학술 연구와 과학 정책 수립 모두에 중요한 함의를 제공한다. 앞으로도 그래프의 규모와 정밀도를 더욱 확대하고, 다양한 학문 분야에 적용함으로써 인공지능이 인간 과학자와 협업하여 새로운 지식의 지평을 열어가는 기반을 마련하고자 한다.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut