AI 기반 암 연구 협업 예측: 공동 저자 네트워크 해석과 정책 인사이트

초록

본 연구는 2000‑2017년 Scopus 데이터베이스에서 추출한 7,738편의 AI‑활용 암 연구 논문을 대상으로 공동 저자 네트워크를 구축하고, 새로운, 지속적, 종료된 협업을 예측하는 머신러닝 모델을 개발하였다. 속성 기반·구조 기반 피처를 결합하고, 랜덤 포레스트가 가장 높은 재현율을 보였다. 특히 학문 분야 유사도는 신규·지속 협업을 촉진하고 종료 협업을 억제하는 핵심 요인으로 작용했으며, 높은 생산성·연구 경력이 오히려 협업 종료와 양의 상관관계를 나타냈다. SHAP 해석을 통해 모델 투명성을 확보하고, 정책 입안 및 팀 구성 전략에 활용 가능한 실증적 근거를 제공한다.

상세 요약

본 논문은 AI‑Driven 암 연구 분야에서 협업 구조를 정량적으로 파악하고, 향후 협업을 예측하기 위한 체계적인 방법론을 제시한다. 데이터 수집 단계에서 2000년부터 2017년까지 Scopus에 등재된 7,738편의 논문을 선정했으며, 저자‑저자 간 공동 저작 관계를 엣지로, 저자를 노드로 하는 36개의 겹치는 연도별 네트워크를 구축하였다. 네트워크는 ‘신규 협업(새로 형성된 링크)’, ‘지속 협업(이전에도 존재하던 링크)’, ‘종료 협업(이전에는 존재했지만 사라진 링크)’이라는 세 가지 상태로 라벨링되었다.

피처 엔지니어링은 크게 두 축으로 나뉜다. 첫 번째는 저자 개인의 속성 기반 피처로, 연구 생산성(논문 수), 학술 경력(연구 연수), 소속 기관 규모, 학문 분야(전공) 등을 포함한다. 두 번째는 네트워크 구조 기반 피처로, 공동 저자 간의 공통 이웃 수, 자카드 유사도, 피어슨 상관계수, 구조적 균형성(트라이어드 클로징), 중심성 차이(베트위니, 클로즈니스) 등을 계산하였다. 특히 ‘학문 분야 유사도(Discipline Similarity)’는 두 저자의 전공 분야가 얼마나 겹치는지를 정량화한 지표로, 본 연구의 핵심 변수로 부각된다.

머신러닝 모델은 로지스틱 회귀, 서포트 벡터 머신, XGBoost, 랜덤 포레스트 네 가지를 적용했으며, 클래스 불균형을 완화하기 위해 SMOTE와 언더샘플링을 병행하였다. 평가 지표는 재현율(Recall)과 정밀도(Precision)를 모두 고려했으며, 특히 협업 형성(신규·지속) 예측에서 높은 재현율을 목표로 설정하였다. 결과적으로 랜덤 포레스트가 세 가지 협업 유형 모두에서 가장 높은 재현율(신규 0.78, 지속 0.81, 종료 0.73)을 기록했다.

모델 해석에는 SHAP(Shapley Additive Explanations)를 활용해 각 피처가 예측에 미치는 기여도를 시각화하였다. 주요 인사이트는 다음과 같다. 첫째, ‘학문 분야 유사도’는 신규 및 지속 협업에서는 양의 SHAP 값을, 종료 협업에서는 음의 SHAP 값을 보여, 분야 간 교차가 협업 유지에 핵심임을 시사한다. 둘째, ‘연구 생산성’와 ‘연구 경력(연차)’는 종료 협업에 긍정적인 영향을 미쳐, 고생산·고경력 연구자가 기존 파트너와 관계를 끊을 가능성이 높다는 역설적인 결과를 도출한다. 셋째, ‘공동 이웃 수’와 ‘트라이어드 클로징 비율’ 같은 구조적 피처는 전반적으로 협업 지속에 긍정적이지만, 그 효과는 분야 유사도와 상호작용한다는 점이 발견되었다.

정책적 함의 측면에서, 연구기관 및 펀딩 기관은 분야 유사도가 높은 연구자들을 매칭시키는 프로그램을 확대하고, 고경력·고생산 연구자의 경우 새로운 파트너십을 촉진하기 위한 인센티브(예: 교차 분야 워크숍, 공동 프로젝트 지원)를 제공해야 한다. 또한, 네트워크 분석을 정기적으로 수행해 협업 소멸 위험이 높은 클러스터를 사전에 식별하고, 전략적 개입을 통해 연구 효율성을 높일 수 있다.

본 연구는 데이터 기반 협업 예측 모델을 제시함으로써, AI‑Driven 암 연구에서 인터디서플리너리 팀 구성을 과학적으로 지원하고, 정책 입안자가 증거 기반 의사결정을 할 수 있는 토대를 마련한다는 점에서 학문적·실무적 의의가 크다.

초록

상세 요약

📜 논문 원문 (영문)