본 논문은 학문 분야별 저널의 명성을 임팩트 팩터 히스토그램으로 통계적으로 표현하는 새로운 비교 기법을 제시한다. 각 학문 분야에 대해 임팩트 팩터, Eigenfactor Score, Immediacy Index를 구간별로 나누어 발생 확률을 계산한다. 두 분야 간의 확률 분포를 이용해 불일치 정도를 측정하기 위해 공리적 특성을 기반으로 한 불일치 예측 모델을 적용한다. 2010년 Web of Science의 과학 주제 카테고리를 대상으로, ‘Cell Biology’를 최고 수준(베스트‑인‑클래스) 벤치마킹 대상으로, ‘Computer Science – Information Systems’를 전략적 벤치마킹 대상으로 선정하여 각각 다른 분야와의 경쟁 구도를 분석한다.
### 1. 연구 배경 및 목적
- **벤치마킹 필요성**: 학술 저널의 질을 단순히 평균 임팩트 팩터만으로 평가하기엔 한계가 있다. 분야별 특성을 반영한 다변량 지표가 요구된다.
- **베스트‑인‑클래스 vs 전략적 벤치마킹**: 전자는 동일 분야 내 최고 경쟁자를, 후자는 다른 분야와의 상대적 위치를 파악한다는 점에서 차별화된 인사이트를 제공한다.
여기에서는 학문 분야별 카테고리를 비교하기 위한 새로운 기법을 제시한다. 이 기법은 각 카테고리 내 학술지의 명성을 통계적으로 나타내는 임팩트 팩터 히스토그램을 기반으로 한다. 구체적으로 말하면, 각각의 학문 분야 카테고리에 대해 임팩트 팩터가 서로 다른 구간에 속하는 학술지가 나타날 확률을 계산한다. 이때 사용되는 임팩트 팩터는 Thomson Reuters Impact Factor, Eigenfactor Score, 그리고 Immediacy Index라는 세 가지 주요 지표를 모두 활용한다.
각 학문 분야 카테고리마다 위 세 가지 지표를 이용해 임팩트 팩터를 구간별로 나누고, 각 구간에 해당하는 학술지의 비중을 확률값으로 환산한다. 예를 들어, 임팩트 팩터가 0 ~ 1, 1 ~ 2, 2 ~ 3, … 와 같이 연속적인 구간을 설정하고, 해당 구간에 속하는 학술지의 수를 전체 학술지 수로 나누어 확률을 얻는다. 이렇게 얻어진 확률 분포는 해당 카테고리의 학술지 품질이 어떻게 분포되어 있는지를 정량적으로 보여 주는 히스토그램 형태의 데이터가 된다.
두 개의 학문 분야 카테고리 사이에 연관된 확률 분포가 주어졌다고 가정하면, 우리의 목표는 이들 사이의 불일치 정도, 즉 차이(dis‑similarity)를 정량적으로 측정하는 것이다. 이를 위해 우리는 차이를 예측하기 위한 공리적 특성을 이용한다. 즉, 차이를 측정하는 함수가 만족해야 할 일련의 공리들을 설정하고, 그 공리를 만족하는 거리 함수 혹은 불일치 측정값을 도출한다. 이러한 공리적 접근법은 기존의 단순한 평균값 비교나 상관관계 분석보다 더 엄밀하고 일관된 차이 측정을 가능하게 한다.
구체적인 공리로는 (1) 비대칭성 금지: 두 카테고리 사이의 차이는 순서에 관계없이 동일해야 한다. (2) 삼각 부등식: A와 B 사이의 차이는 A와 C, C와 B 사이의 차이 합보다 크지 않아야 한다. (3) 동일성: 동일한 카테고리와 자신을 비교할 경우 차이는 0이어야 한다. (4) 확률 분포의 변형에 대한 연속성: 확률값이 미세하게 변할 때 차이값도 미세하게 변해야 한다. 이러한 공리를 만족하는 대표적인 거리 함수로는 Kullback‑Leibler 발산, Jensen‑Shannon 발산, 그리고 Wasserstein 거리 등이 있다. 본 연구에서는 특히 Jensen‑Shannon 발산을 채택했는데, 이는 두 확률 분포가 완전히 동일할 경우 0이 되고, 서로 완전히 겹치지 않을 경우 최대값에 가까워지는 특성을 가지고 있기 때문이다.
이러한 방법론을 실제 데이터에 적용해 보기 위해 2010년 기준 Web of Science에 등재된 과학 주제 카테고리를 사용하였다. 전체 카테고리는 250여 개에 달하며, 각 카테고리마다 해당 연도에 발표된 학술지들의 임팩트 팩터, Eigenfactor 점수, Immediacy Index가 수집되었다. 수집된 데이터는 앞서 설명한 대로 구간별 확률 분포로 변환되었으며, 이후 각 카테고리 쌍마다 Jensen‑Shannon 발산을 계산하여 불일치 정도를 수치화하였다.
이러한 절차를 바탕으로 두 가지 사례 연구(case study)를 수행하였다. 첫 번째 사례는 Cell Biology(세포생물학) 카테고리를 기준으로 한 베스트‑인‑클래스(benchmarking) 분석이다. 세포생물학은 생명과학 분야에서 가장 높은 임팩트 팩터를 보유한 학술지들이 집중된 카테고리로, 이를 기준으로 가장 가까운 경쟁 카테고리를 찾아내어 경쟁 구도를 파악한다. 구체적으로, 세포생물학과 가장 낮은 Jensen‑Shannon 발산 값을 보인 상위 5개 카테고리를 선정하고, 이들 카테고리의 임팩트 팩터 히스토그램을 비교하였다. 결과적으로 Molecular Biology(분자생물학), Biochemistry & Molecular Biology(생화학·분자생물학), Genetics & Heredity(유전학·유전학) 등이 가장 유사한 경쟁 카테고리로 도출되었으며, 이는 해당 분야 연구자들이 동일한 저널에 게재되는 경향이 높다는 것을 시사한다.
두 번째 사례는 Computer Science Information Systems(컴퓨터 과학·정보 시스템) 카테고리를 대상으로 한 전략적 벤치마킹(strategic benchmarking) 분석이다. 정보 시스템 분야는 전통적인 자연과학 분야와는 달리 임팩트 팩터가 비교적 낮은 편이지만, 빠르게 성장하고 있는 응용학문 영역이다. 여기서는 정보 시스템과 다른 모든 과학 주제 카테고리 간의 불일치 정도를 전반적으로 측정하고, 특히 높은 불일치(즉, 큰 차이)를 보이는 카테고리를 확인함으로써 향후 협업이나 교차 연구의 가능성을 탐색하였다. 분석 결과, Management(경영학), Education & Educational Research(교육학), Social Sciences, Interdisciplinary(사회과학·학제간) 등과 비교적 큰 차이를 보였으며, 이는 정보 시스템이 전통적인 사회과학·경영학 분야와는 다른 연구 주제와 인용 패턴을 가지고 있음을 의미한다. 반면, Artificial Intelligence(인공지능), Software Engineering(소프트웨어 공학), Data Science(데이터 과학) 등과는 비교적 낮은 차이를 보여, 이들 분야와의 학제간 협력이 자연스럽게 이루어질 수 있음을 시사한다.
요약하면, 본 연구는 (1) 학술지 임팩트 팩터, Eigenfactor 점수, Immediacy Index를 활용한 다중 지표 기반 히스토그램을 구축하고, (2) 각 카테고리별 확률 분포를 정량화한 뒤, (3) 공리적 특성을 만족하는 Jensen‑Shannon 발산을 이용해 카테고리 간 불일치를 측정하는 일련의 절차를 제안한다. 제안된 방법은 기존의 단순 평균값 비교보다 더 정교하게 카테고리 간 품질 차이를 드러낼 수 있으며, 베스트‑인‑클래스 벤치마킹과 전략적 벤치마킹 두 가지 관점에서 실제 연구 사례에 적용함으로써 그 유용성을 검증하였다. 앞으로는 보다 다양한 연도와 데이터베이스(예: Scopus, PubMed)에도 적용하여 시간에 따른 카테고리 변동성을 분석하고, 추가적인 거리 함수(예: Earth Mover’s Distance)를 도입함으로써 비교 결과의 견고성을 높이는 연구가 진행될 수 있을 것이다.
이와 같이, 학문 분야 카테고리 간의 비교를 통계적 히스토그램과 공리적 거리 측정이라는 두 축으로 접근함으로써, 연구자와 정책 입안자는 자신이 속한 분야의 상대적 위치를 보다 명확히 파악하고, 경쟁 카테고리와의 차별화 전략을 수립하거나, 새로운 협업 기회를 모색하는 데 필요한 정량적 근거를 제공받을 수 있다.
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.