백분위 순위 불확실성 평가를 위한 새로운 접근법
초록
본 논문은 Schreiber(2012)의 연계 순위와 소수점 할당 방법을 검토하고, 백분위 구간을 연속적인 백분위값(quantile)으로 변환한 뒤 선형적으로 처리하는 보다 효율적인 절차를 제시한다. 기존 방법의 계산 복잡성을 낮추고, Web of Science 데이터에 적용 가능한 소프트웨어 구현을 제공한다.
상세 분석
Schreiber(2012)는 작은 표본(n<100)에서 동일한 인용 수를 가진 논문들의 순위를 처리하기 위해 두 가지 절차를 제안하였다. 첫 번째는 ‘연계 순위(tied ranks)’를 일관되게 부여하는 방법으로, 이는 기존 문헌(Pudovkin & Garfield, 2009)과 일치한다. 두 번째는 백분위 구간을 여섯 개의 클래스(예: 상위 1 %, 1‑5 % 등)로 나누어 각 논문에 부분 점수를 부여하는 ‘fractional attribution’이다. 그러나 이 방식은 각 논문마다 복잡한 조합 계산을 요구하므로, 실무에서 수동으로 적용하기 어렵다.
본 논문은 이러한 한계를 극복하기 위해 백분위값 자체를 연속적인 확률 변수인 quantile로 정의한다. 즉, 전체 논문 집합을 정렬한 뒤 각 논문의 위치를 (순위‑0.5)/N 형태로 표현한다. 이 값은 0과 1 사이의 실수이며, 백분위(0‑100)로 손쉽게 변환된다. 중요한 점은, 이 단계에서의 계산이 완전히 선형이며, O(N) 시간 복잡도로 수행될 수 있다는 것이다.
그 다음 단계는 사용자가 정의한 평가 스킴에 따라 이 연속 백분위값을 원하는 구간으로 집계하는 과정이다. 예를 들어, 미국 국가과학위원회의 ‘Science and Engineering Indicators’에서 사용하는 여섯 개 클래스는 각각 0‑1 %, 1‑5 %, 5‑10 %, 10‑25 %, 25‑50 %, 50‑100 % 구간에 해당한다. 연속 백분위값을 해당 구간에 매핑하고, 각 구간에 할당된 가중치를 곱해 합산하면 전체 지표가 산출된다. 이때 ‘fractional attribution’은 더 이상 개별 논문 수준에서 복잡한 조합을 필요로 하지 않는다.
또한, 논문은 Schreiber의 연계 순위 처리 방식을 그대로 유지하면서, 백분위값 계산 단계에서 동일한 순위에 대해 동일한 quantile을 부여한다. 따라서 기존 방법의 장점은 보존하면서, 계산 효율성은 크게 향상된다.
실제 적용을 위해 저자는 Web of Science에서 추출한 데이터에 대한 파이썬 기반 소프트웨어(i3)를 공개하였다. 이 도구는 (1) 데이터 입력, (2) 연계 순위 부여, (3) 연속 백분위값 계산, (4) 사용자 정의 구간 및 가중치 적용, (5) 결과 출력의 전 과정을 자동화한다. 특히, 대규모 데이터셋(수천 건)에서도 몇 초 내에 처리할 수 있어, 연구 평가, 기관 비교, 정책 분석 등에 실용적으로 활용될 수 있다.
결론적으로, 백분위 순위의 불확실성을 다루는 기존 방법을 선형화하고, 소프트웨어 구현을 통해 실무 적용성을 높인 점이 본 논문의 핵심 기여이다. 이는 인용 기반 평가 지표의 투명성과 재현성을 강화하고, 평가자들이 복잡한 수학적 절차에 얽매이지 않고 본질적인 연구 성과에 집중할 수 있게 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기